論文の概要: Iterative Context-Aware Graph Inference for Visual Dialog
- arxiv url: http://arxiv.org/abs/2004.02194v1
- Date: Sun, 5 Apr 2020 13:09:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 13:13:27.228707
- Title: Iterative Context-Aware Graph Inference for Visual Dialog
- Title(参考訳): ビジュアルダイアログのための反復的文脈認識グラフ推論
- Authors: Dan Guo, Hui Wang, Hanwang Zhang, Zheng-Jun Zha, Meng Wang
- Abstract要約: 本稿では,新しいコンテキスト認識グラフ(CAG)ニューラルネットワークを提案する。
グラフの各ノードは、オブジェクトベース(視覚)と履歴関連(テキスト)コンテキスト表現の両方を含む、共同意味機能に対応している。
- 参考スコア(独自算出の注目度): 126.016187323249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual dialog is a challenging task that requires the comprehension of the
semantic dependencies among implicit visual and textual contexts. This task can
refer to the relation inference in a graphical model with sparse contexts and
unknown graph structure (relation descriptor), and how to model the underlying
context-aware relation inference is critical. To this end, we propose a novel
Context-Aware Graph (CAG) neural network. Each node in the graph corresponds to
a joint semantic feature, including both object-based (visual) and
history-related (textual) context representations. The graph structure
(relations in dialog) is iteratively updated using an adaptive top-$K$ message
passing mechanism. Specifically, in every message passing step, each node
selects the most $K$ relevant nodes, and only receives messages from them.
Then, after the update, we impose graph attention on all the nodes to get the
final graph embedding and infer the answer. In CAG, each node has dynamic
relations in the graph (different related $K$ neighbor nodes), and only the
most relevant nodes are attributive to the context-aware relational graph
inference. Experimental results on VisDial v0.9 and v1.0 datasets show that CAG
outperforms comparative methods. Visualization results further validate the
interpretability of our method.
- Abstract(参考訳): ビジュアルダイアログは、暗黙の視覚的およびテキスト的コンテキスト間の意味的依存関係の理解を必要とする難しいタスクである。
このタスクは、スパースコンテキストと未知のグラフ構造(関係記述子)を持つグラフィカルモデルにおける関係推論と、基礎となるコンテキスト・アウェア関係推論のモデル化が重要である。
そこで本研究では,新しいコンテキスト認識グラフ(CAG)ニューラルネットワークを提案する。
グラフの各ノードは、オブジェクトベース(視覚)および履歴関連(テキスト)コンテキスト表現を含む、共同意味機能に対応している。
グラフ構造(ダイアログ内の関係)は、適応型トップ$k$メッセージパッシングメカニズムを使用して反復的に更新される。
具体的には、すべてのメッセージパスステップで、各ノードは最も$k$の関連するノードを選択し、それらからのみメッセージを受信する。
そして、更新後、最後のグラフを埋め込んで答えを推測するために、すべてのノードにグラフの注意を向けます。
CAGでは、各ノードはグラフ内の動的関係(微分関連$K$隣接ノード)を持ち、最も関連性の高いノードのみが文脈対応リレーショナルグラフの推論に起因している。
VisDial v0.9とv1.0データセットの実験的結果は、CAGが比較法より優れていることを示している。
可視化結果はさらに,本手法の解釈可能性を検証する。
関連論文リスト
- Graph Neural Networks on Discriminative Graphs of Words [19.817473565906777]
本研究では,単語グラフニューラルネットワーク(DGoW-GNN)によるテキストの識別手法を提案する。
本稿では,GNNとシーケンスモデルを組み合わせたグラフベースのテキスト分類の新しいモデルを提案する。
提案手法を7つのベンチマークデータセットで評価し,いくつかの最先端ベースラインモデルにより性能が向上していることを確認した。
論文 参考訳(メタデータ) (2024-10-27T15:14:06Z) - G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。
一般のテキストグラフに対する最初の検索拡張生成(RAG)手法を提案する。
G-Retrieverは、このタスクをSteiner Tree最適化問題として定式化し、グラフ上でRAGを実行する。
論文 参考訳(メタデータ) (2024-02-12T13:13:04Z) - ConGraT: Self-Supervised Contrastive Pretraining for Joint Graph and Text Embeddings [20.25180279903009]
テキスト分散グラフ(TAG)におけるテキストとノードの分離表現を共同学習するためのContrastive Graph-Text Pretraining(ConGraT)を提案する。
提案手法は言語モデル(LM)とグラフニューラルネットワーク(GNN)を訓練し,CLIPにインスパイアされたバッチワイドコントラスト学習目標を用いて,それらの表現を共通の潜在空間に整列させる。
実験により、ConGraTは、ノードとテキストのカテゴリ分類、リンク予測、言語モデリングなど、さまざまな下流タスクのベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T17:53:30Z) - Conversational Semantic Parsing using Dynamic Context Graphs [68.72121830563906]
汎用知識グラフ(KG)を用いた会話意味解析の課題を,数百万のエンティティと数千のリレーショナルタイプで検討する。
ユーザ発話を実行可能な論理形式にインタラクティブにマッピングできるモデルに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-04T16:04:41Z) - Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM
既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文 参考訳(メタデータ) (2022-09-15T16:26:14Z) - GraghVQA: Language-Guided Graph Neural Networks for Graph-based Visual
Question Answering [4.673063715963991]
Scene Graphはオブジェクトをエッジとしてペアワイズリレーションを介して接続されたノードとしてエンコードします。
自然言語質問の翻訳と実行を行う言語誘導グラフニューラルネットワークフレームワークであるGraphVQAを提案する。
GQAデータセットに対する実験により、GraphVQAは最先端の精度を大きなマージンで上回ることを示した。
論文 参考訳(メタデータ) (2021-04-20T23:54:41Z) - Learning the Implicit Semantic Representation on Graph-Structured Data [57.670106959061634]
グラフ畳み込みネットワークにおける既存の表現学習手法は主に、各ノードの近傍を知覚全体として記述することで設計される。
本稿では,グラフの潜在意味パスを学習することで暗黙的な意味を探索する意味グラフ畳み込みネットワーク(sgcn)を提案する。
論文 参考訳(メタデータ) (2021-01-16T16:18:43Z) - Graph Structured Network for Image-Text Matching [127.68148793548116]
微粒化対応学習のためのグラフ構造化マッチングネットワークを提案する。
GSMNは、明示的にオブジェクト、関係、属性を構造化されたフレーズとしてモデル化する。
実験により、GSMNはベンチマークで最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2020-04-01T08:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。