論文の概要: Disentangled Motif-aware Graph Learning for Phrase Grounding
- arxiv url: http://arxiv.org/abs/2104.06008v1
- Date: Tue, 13 Apr 2021 08:20:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:45:50.550202
- Title: Disentangled Motif-aware Graph Learning for Phrase Grounding
- Title(参考訳): ファスグラウンドのための遠絡型モチーフ認識グラフ学習
- Authors: Zongshen Mu, Siliang Tang, Jie Tan, Qiang Yu, Yueting Zhuang
- Abstract要約: 画像中のフレーズ接地のための新しいグラフ学習フレームワークを提案する。
モチーフを認識した文脈情報を表現に組み込むために,不連続グラフネットワークを考案する。
私たちのモデルはFlickr30K EntitiesとReferIt Gameベンチマークで最先端のパフォーマンスを実現します。
- 参考スコア(独自算出の注目度): 48.64279161780489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel graph learning framework for phrase
grounding in the image. Developing from the sequential to the dense graph
model, existing works capture coarse-grained context but fail to distinguish
the diversity of context among phrases and image regions. In contrast, we pay
special attention to different motifs implied in the context of the scene graph
and devise the disentangled graph network to integrate the motif-aware
contextual information into representations. Besides, we adopt interventional
strategies at the feature and the structure levels to consolidate and
generalize representations. Finally, the cross-modal attention network is
utilized to fuse intra-modal features, where each phrase can be computed
similarity with regions to select the best-grounded one. We validate the
efficiency of disentangled and interventional graph network (DIGN) through a
series of ablation studies, and our model achieves state-of-the-art performance
on Flickr30K Entities and ReferIt Game benchmarks.
- Abstract(参考訳): 本稿では,画像中の句の接地のための新しいグラフ学習フレームワークを提案する。
シーケンシャルグラフモデルから密度の高いグラフモデルへと発展し、既存の作品は粗い粒度のコンテキストをキャプチャするが、フレーズと画像領域間のコンテキストの多様性を区別できない。
対照的に、シーングラフの文脈に暗示される異なるモチーフに特に注意を払い、そのモチーフを認識した文脈情報を表現に組み込むために、不連続グラフネットワークを考案する。
さらに,特徴と構造レベルでの介入戦略を採用し,表現の統合と一般化を行う。
最後に、クロスモーダルアテンションネットワークを用いてモーダル内特徴を融合し、各フレーズが各領域と類似性を計算し、最良のグラウンドを選択する。
本研究では,dign(disentangled and interventional graph network)の効率を一連のアブレーション研究により検証し,flickr30kエンティティの最先端性能と参照ゲームベンチマークを実現する。
関連論文リスト
- Two Stream Scene Understanding on Graph Embedding [4.78180589767256]
本稿では,コンピュータビジョンにおけるシーン理解の促進を目的とした,新しい2ストリームネットワークアーキテクチャを提案する。
グラフ特徴ストリームネットワークは、セグメンテーション構造、シーングラフ生成、およびグラフ表現モジュールを含む。
ADE20Kデータセットで行った実験は、画像分類精度を向上させるために提案した2ストリームネットワークの有効性を示した。
論文 参考訳(メタデータ) (2023-11-12T05:57:56Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Group Contrastive Self-Supervised Learning on Graphs [101.45974132613293]
グラフ上での自己教師型学習をコントラッシブ手法を用いて研究する。
複数の部分空間におけるグラフの対比により、グラフエンコーダはより豊富な特徴を捉えることができる。
論文 参考訳(メタデータ) (2021-07-20T22:09:21Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z) - GINet: Graph Interaction Network for Scene Parsing [58.394591509215005]
画像領域に対する文脈推論を促進するために,グラフインタラクションユニット(GIユニット)とセマンティックコンテキストロス(SC-loss)を提案する。
提案されたGINetは、Pascal-ContextやCOCO Stuffなど、一般的なベンチマークにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-09-14T02:52:45Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。