論文の概要: From General to Specific: Informative Scene Graph Generation via Balance
Adjustment
- arxiv url: http://arxiv.org/abs/2108.13129v1
- Date: Mon, 30 Aug 2021 11:39:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 14:35:32.627268
- Title: From General to Specific: Informative Scene Graph Generation via Balance
Adjustment
- Title(参考訳): 一般から特定へ:バランス調整による情報付きシーングラフ生成
- Authors: Yuyu Guo, Lianli Gao, Xuanhan Wang, Yuxuan Hu, Xing Xu, Xu Lu, Heng
Tao Shen, Jingkuan Song
- Abstract要約: 現在のモデルは、情報的なモデルではなく、例えば"on"や"at"といった一般的な述語に留まっている。
本稿では,バランス調整に基づくフレームワークであるBA-SGGを提案する。
提案手法は,視覚ゲノム上の3つのシーングラフ生成サブタスクにおいて,トランスフォーマーモデルよりも14.3%,8.0%,および6.1%高い平均リコール(mR)を実現する。
- 参考スコア(独自算出の注目度): 113.04103371481067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scene graph generation (SGG) task aims to detect visual relationship
triplets, i.e., subject, predicate, object, in an image, providing a structural
vision layout for scene understanding. However, current models are stuck in
common predicates, e.g., "on" and "at", rather than informative ones, e.g.,
"standing on" and "looking at", resulting in the loss of precise information
and overall performance. If a model only uses "stone on road" rather than
"blocking" to describe an image, it is easy to misunderstand the scene. We
argue that this phenomenon is caused by two key imbalances between informative
predicates and common ones, i.e., semantic space level imbalance and training
sample level imbalance. To tackle this problem, we propose BA-SGG, a simple yet
effective SGG framework based on balance adjustment but not the conventional
distribution fitting. It integrates two components: Semantic Adjustment (SA)
and Balanced Predicate Learning (BPL), respectively for adjusting these
imbalances. Benefited from the model-agnostic process, our method is easily
applied to the state-of-the-art SGG models and significantly improves the SGG
performance. Our method achieves 14.3%, 8.0%, and 6.1% higher Mean Recall (mR)
than that of the Transformer model at three scene graph generation sub-tasks on
Visual Genome, respectively. Codes are publicly available.
- Abstract(参考訳): シーングラフ生成(SGG)タスクは、画像中の主観的、述語的、対象といった視覚的関係三重項を検出し、シーン理解のための構造的視覚レイアウトを提供する。
しかし、現在のモデルは、例えば「オン」や「at」のような一般的な述語に留まり、例えば「オン」や「見ている」といった情報よりも、正確な情報や全体的なパフォーマンスが失われる。
モデルがイメージを記述するために「ブロック」ではなく「道路上の石」を使う場合、シーンを誤解するのは容易である。
この現象は、情報的述語と共通する2つの重要な不均衡、すなわち意味空間レベルの不均衡とサンプルレベルの不均衡によって引き起こされる。
この問題を解決するため,従来の配電方式ではなく,バランス調整に基づく簡易かつ効果的なSGGフレームワークであるBA-SGGを提案する。
セマンティック調整(SA)とバランスド・プレディケート・ラーニング(BPL)の2つのコンポーネントを統合し、これらの不均衡を調整する。
モデルに依存しないプロセスから得られた手法は,最先端のSGGモデルに容易に適用でき,SGGの性能が大幅に向上する。
提案手法は,視覚ゲノム上の3つのシーングラフ生成サブタスクにおいて,トランスフォーマーモデルよりも14.3%,8.0%,および6.1%高い平均リコール(mR)を実現する。
コードは公開されている。
関連論文リスト
- Improving Scene Graph Generation with Relation Words' Debiasing in Vision-Language Models [6.8754535229258975]
シーングラフ生成(SGG)は、視覚シーンの基本的な言語表現を提供する。
テストトリプレットの一部は、トレーニング中に珍しいか、あるいは目に見えず、結果として予測される。
本稿では,事前学習された視覚言語モデル(VLM)を用いたSGGモデルを用いて表現を強化することを提案する。
論文 参考訳(メタデータ) (2024-03-24T15:02:24Z) - GPT4SGG: Synthesizing Scene Graphs from Holistic and Region-specific Narratives [69.36723767339001]
我々は,より正確で包括的なシーングラフ信号を得るために,textitGPT4SGという新しいフレームワークを提案する。
textitGPT4SGGは、画像キャプチャーデータに基づいて訓練されたSGGモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-12-07T14:11:00Z) - Informative Scene Graph Generation via Debiasing [124.71164256146342]
シーングラフ生成は、視覚的関係三重項(オブジェクト、述語、オブジェクト)を検出することを目的としている
データのバイアスのため、現在のモデルは一般的な述語を予測する傾向がある。
本稿では,DB-SGGを提案する。
論文 参考訳(メタデータ) (2023-08-10T02:04:01Z) - Towards Unseen Triples: Effective Text-Image-joint Learning for Scene
Graph Generation [30.79358827005448]
SGG(Scene Graph Generation)は、画像内のオブジェクトとその接続を構造的かつ包括的に表現することを目的としている。
既存のSGGモデルは、バイアス付きデータセットによって引き起こされる長い尾の問題を解決するのに苦労することが多い。
テキスト画像結合Scene Graph Generation (TISGG) モデルを提案する。
論文 参考訳(メタデータ) (2023-06-23T10:17:56Z) - Towards Open-vocabulary Scene Graph Generation with Prompt-based
Finetuning [84.39787427288525]
シーングラフ生成(SGG)は、画像内のオブジェクト間の視覚的関係を検出するための基本的なタスクである。
オープンボキャブラリシーングラフ生成は,モデルが一連のベースオブジェクトクラスでトレーニングされる,斬新で現実的で困難な設定である。
我々のメソッドは、既存のメソッドが処理できない、完全に見えないオブジェクトクラスに対する推論をサポートすることができる。
論文 参考訳(メタデータ) (2022-08-17T09:05:38Z) - Fine-Grained Predicates Learning for Scene Graph Generation [155.48614435437355]
Fine-Grained Predicates Learningは、シーングラフ生成タスクにおいて、識別困難な述語間の差別化を目的としている。
本稿では,SGGモデルによる詳細な述語ペアの探索を支援するPredicate Latticeを提案する。
次に、カテゴリ識別損失とエンティティ識別損失を提案し、どちらも粒度の細かい述語の識別に寄与する。
論文 参考訳(メタデータ) (2022-04-06T06:20:09Z) - Not All Relations are Equal: Mining Informative Labels for Scene Graph
Generation [48.21846438269506]
シーングラフ生成(SGG)は、オブジェクトのペア間の多様な相互作用をキャプチャすることを目的としている。
既存のSGG法では、トレーニングデータに様々なバイアスがあるため、視覚的およびテキスト的相関に関する複雑な推論が得られない。
本稿では,その情報性に基づいて関係ラベルを利用するSGGトレーニングのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-26T14:34:12Z) - Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。
本稿では,新たな意味論的構成学習戦略を提案する。
最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文 参考訳(メタデータ) (2021-08-19T10:13:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。