論文の概要: Integrating Object-aware and Interaction-aware Knowledge for Weakly
Supervised Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2208.01834v1
- Date: Wed, 3 Aug 2022 04:20:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 13:35:21.723568
- Title: Integrating Object-aware and Interaction-aware Knowledge for Weakly
Supervised Scene Graph Generation
- Title(参考訳): 弱教師付きシーングラフ生成のためのオブジェクト認識と対話認識の知識の統合
- Authors: Xingchen Li, Long Chen, Wenbo Ma, Yi Yang and Jun Xiao
- Abstract要約: 既存のWSSGGのほとんどは、オブジェクト一貫性にのみ焦点をあてています。
本稿では,オブジェクト認識とインタラクション認識の両方の知識を用いて,シンプルな接地モジュールを構築することを提案する。
本手法は, 各種の弱監督下でのWSSGG性能を継続的に改善する。
- 参考スコア(独自算出の注目度): 33.15624351965304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, increasing efforts have been focused on Weakly Supervised Scene
Graph Generation (WSSGG). The mainstream solution for WSSGG typically follows
the same pipeline: they first align text entities in the weak image-level
supervisions (e.g., unlocalized relation triplets or captions) with image
regions, and then train SGG models in a fully-supervised manner with aligned
instance-level "pseudo" labels. However, we argue that most existing WSSGG
works only focus on object-consistency, which means the grounded regions should
have the same object category label as text entities. While they neglect
another basic requirement for an ideal alignment: interaction-consistency,
which means the grounded region pairs should have the same interactions (i.e.,
visual relations) as text entity pairs. Hence, in this paper, we propose to
enhance a simple grounding module with both object-aware and interaction-aware
knowledge to acquire more reliable pseudo labels. To better leverage these two
types of knowledge, we regard them as two teachers and fuse their generated
targets to guide the training process of our grounding module. Specifically, we
design two different strategies to adaptively assign weights to different
teachers by assessing their reliability on each training sample. Extensive
experiments have demonstrated that our method consistently improves WSSGG
performance on various kinds of weak supervision.
- Abstract(参考訳): 近年,weakly supervised scene graph generation (wssgg) が注目されている。
WSSGGのメインストリームのソリューションは、通常同じパイプラインに従っている: まず、弱い画像レベルの監督(例えば、非ローカライズされた関係トリプレットやキャプション)でテキストエンティティをイメージ領域と整列させ、次に、整列されたインスタンスレベルの"擬似"ラベルで、完全に教師された方法でSGGモデルを訓練する。
しかし、既存のWSSGGの作業のほとんどはオブジェクト一貫性にのみ焦点をあてているので、基底領域はテキストエンティティと同じオブジェクトカテゴリラベルを持つべきです。
相互作用-一貫性(interaction-consistency)は、接地領域ペアがテキストエンティティペアと同じインタラクション(つまり視覚的な関係)を持つべきであることを意味する。
そこで本稿では,より信頼性の高い擬似ラベルを取得するために,オブジェクト認識とインタラクション認識の両方の知識を用いたシンプルな接地モジュールを提案する。
これら2つの知識をよりよく活用するために、我々はこれらを2つの教師とみなし、生成した目標を融合させ、グラウンドモジュールのトレーニングプロセスを導く。
具体的には、各トレーニングサンプルの信頼性を評価して、異なる教師に重みを適応的に割り当てる2つの異なる戦略を設計する。
広範囲な実験により,WSSGGの性能は,各種の弱い監督下で一貫して向上することが示された。
関連論文リスト
- Taking A Closer Look at Interacting Objects: Interaction-Aware Open Vocabulary Scene Graph Generation [16.91119080704441]
対話型OVSGGフレームワークINOVAを提案する。
事前トレーニングでは、対話対象と非対話対象を区別するために、対話対応のターゲット生成戦略を採用している。
INOVAは、相互作用するオブジェクトペアを背景から遠ざけることで堅牢性を高めるために、相互作用一貫性のある知識蒸留を備えている。
論文 参考訳(メタデータ) (2025-02-06T08:18:06Z) - SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition [71.90536979421093]
本稿では,視覚言語モデル (VLM) の可能性を増幅するために, Gated Alignments (SSPA) フレームワークを用いた分割合成プロンプトを提案する。
我々は、LLMから固有の知識を関連付けるために、文脈内学習アプローチを開発する。
次に,SSP(Split-and-Synthesize Prompting)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-30T15:58:25Z) - Focus on Your Target: A Dual Teacher-Student Framework for
Domain-adaptive Semantic Segmentation [210.46684938698485]
意味的セグメンテーションのための教師なしドメイン適応(UDA)について検討する。
対象領域からのトレーニングサンプルの割合を減少・増加させることで,「学習能力」が強化・弱まることがわかった。
本稿では,DTS(Double teacher-student)フレームワークを提案し,双方向学習戦略を取り入れた。
論文 参考訳(メタデータ) (2023-03-16T05:04:10Z) - Towards Open-vocabulary Scene Graph Generation with Prompt-based
Finetuning [84.39787427288525]
シーングラフ生成(SGG)は、画像内のオブジェクト間の視覚的関係を検出するための基本的なタスクである。
オープンボキャブラリシーングラフ生成は,モデルが一連のベースオブジェクトクラスでトレーニングされる,斬新で現実的で困難な設定である。
我々のメソッドは、既存のメソッドが処理できない、完全に見えないオブジェクトクラスに対する推論をサポートすることができる。
論文 参考訳(メタデータ) (2022-08-17T09:05:38Z) - NICEST: Noisy Label Correction and Training for Robust Scene Graph Generation [65.78472854070316]
我々は,SGG:NICESTのための新しいNoIsyラベルCorrEction and Sample Training戦略を提案する。
NICEはまずノイズのあるサンプルを検出し、さらに高品質な述語ラベルを割り当てる。
NICESTは任意のSGGアーキテクチャにシームレスに組み込んで、さまざまな述語カテゴリのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2022-07-27T06:25:47Z) - Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased
Scene Graph Generation [62.96628432641806]
Scene Graph Generationは、まず与えられた画像内の視覚的コンテンツをエンコードし、次にそれらをコンパクトな要約グラフに解析することを目的としている。
まず,モーダル内改良とモーダル間相互作用を容易にする新しいスタック型ハイブリッド・アテンションネットワークを提案する。
次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。
論文 参考訳(メタデータ) (2022-03-18T09:14:13Z) - Not All Relations are Equal: Mining Informative Labels for Scene Graph
Generation [48.21846438269506]
シーングラフ生成(SGG)は、オブジェクトのペア間の多様な相互作用をキャプチャすることを目的としている。
既存のSGG法では、トレーニングデータに様々なバイアスがあるため、視覚的およびテキスト的相関に関する複雑な推論が得られない。
本稿では,その情報性に基づいて関係ラベルを利用するSGGトレーニングのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-26T14:34:12Z) - iFAN: Image-Instance Full Alignment Networks for Adaptive Object
Detection [48.83883375118966]
iFANは、イメージレベルとインスタンスレベルの両方で、機能の分散を正確に調整することを目的としている。
ソースのみのベースライン上で10%以上のAPで、最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2020-03-09T13:27:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。