論文の概要: Iterative Context-Aware Graph Inference for Visual Dialog
- arxiv url: http://arxiv.org/abs/2004.02194v1
- Date: Sun, 5 Apr 2020 13:09:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 13:13:27.228707
- Title: Iterative Context-Aware Graph Inference for Visual Dialog
- Title(参考訳): ビジュアルダイアログのための反復的文脈認識グラフ推論
- Authors: Dan Guo, Hui Wang, Hanwang Zhang, Zheng-Jun Zha, Meng Wang
- Abstract要約: 本稿では,新しいコンテキスト認識グラフ(CAG)ニューラルネットワークを提案する。
グラフの各ノードは、オブジェクトベース(視覚)と履歴関連(テキスト)コンテキスト表現の両方を含む、共同意味機能に対応している。
- 参考スコア(独自算出の注目度): 126.016187323249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual dialog is a challenging task that requires the comprehension of the
semantic dependencies among implicit visual and textual contexts. This task can
refer to the relation inference in a graphical model with sparse contexts and
unknown graph structure (relation descriptor), and how to model the underlying
context-aware relation inference is critical. To this end, we propose a novel
Context-Aware Graph (CAG) neural network. Each node in the graph corresponds to
a joint semantic feature, including both object-based (visual) and
history-related (textual) context representations. The graph structure
(relations in dialog) is iteratively updated using an adaptive top-$K$ message
passing mechanism. Specifically, in every message passing step, each node
selects the most $K$ relevant nodes, and only receives messages from them.
Then, after the update, we impose graph attention on all the nodes to get the
final graph embedding and infer the answer. In CAG, each node has dynamic
relations in the graph (different related $K$ neighbor nodes), and only the
most relevant nodes are attributive to the context-aware relational graph
inference. Experimental results on VisDial v0.9 and v1.0 datasets show that CAG
outperforms comparative methods. Visualization results further validate the
interpretability of our method.
- Abstract(参考訳): ビジュアルダイアログは、暗黙の視覚的およびテキスト的コンテキスト間の意味的依存関係の理解を必要とする難しいタスクである。
このタスクは、スパースコンテキストと未知のグラフ構造(関係記述子)を持つグラフィカルモデルにおける関係推論と、基礎となるコンテキスト・アウェア関係推論のモデル化が重要である。
そこで本研究では,新しいコンテキスト認識グラフ(CAG)ニューラルネットワークを提案する。
グラフの各ノードは、オブジェクトベース(視覚)および履歴関連(テキスト)コンテキスト表現を含む、共同意味機能に対応している。
グラフ構造(ダイアログ内の関係)は、適応型トップ$k$メッセージパッシングメカニズムを使用して反復的に更新される。
具体的には、すべてのメッセージパスステップで、各ノードは最も$k$の関連するノードを選択し、それらからのみメッセージを受信する。
そして、更新後、最後のグラフを埋め込んで答えを推測するために、すべてのノードにグラフの注意を向けます。
CAGでは、各ノードはグラフ内の動的関係(微分関連$K$隣接ノード)を持ち、最も関連性の高いノードのみが文脈対応リレーショナルグラフの推論に起因している。
VisDial v0.9とv1.0データセットの実験的結果は、CAGが比較法より優れていることを示している。
可視化結果はさらに,本手法の解釈可能性を検証する。
関連論文リスト
- G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。
本手法は,テキスト応答とグラフの関連部分をハイライトする。
論文 参考訳(メタデータ) (2024-02-12T13:13:04Z) - Pretraining Language Models with Text-Attributed Heterogeneous Graphs [28.579509154284448]
テキスト分散不均質グラフ(TAHG)におけるトポロジ的および異種情報を明確に考察する言語モデル(LM)のための新しい事前学習フレームワークを提案する。
本稿では、LMと補助異種グラフニューラルネットワークを協調最適化することにより、コンテキストグラフに関わるノードを予測するトポロジ対応事前学習タスクを提案する。
各種ドメインの3つのデータセット上でリンク予測とノード分類を行う。
論文 参考訳(メタデータ) (2023-10-19T08:41:21Z) - Conversational Semantic Parsing using Dynamic Context Graphs [68.72121830563906]
汎用知識グラフ(KG)を用いた会話意味解析の課題を,数百万のエンティティと数千のリレーショナルタイプで検討する。
ユーザ発話を実行可能な論理形式にインタラクティブにマッピングできるモデルに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-04T16:04:41Z) - Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM
既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文 参考訳(メタデータ) (2022-09-15T16:26:14Z) - GraghVQA: Language-Guided Graph Neural Networks for Graph-based Visual
Question Answering [4.673063715963991]
Scene Graphはオブジェクトをエッジとしてペアワイズリレーションを介して接続されたノードとしてエンコードします。
自然言語質問の翻訳と実行を行う言語誘導グラフニューラルネットワークフレームワークであるGraphVQAを提案する。
GQAデータセットに対する実験により、GraphVQAは最先端の精度を大きなマージンで上回ることを示した。
論文 参考訳(メタデータ) (2021-04-20T23:54:41Z) - Learning the Implicit Semantic Representation on Graph-Structured Data [57.670106959061634]
グラフ畳み込みネットワークにおける既存の表現学習手法は主に、各ノードの近傍を知覚全体として記述することで設計される。
本稿では,グラフの潜在意味パスを学習することで暗黙的な意味を探索する意味グラフ畳み込みネットワーク(sgcn)を提案する。
論文 参考訳(メタデータ) (2021-01-16T16:18:43Z) - Dialogue Relation Extraction with Document-level Heterogeneous Graph
Attention Networks [21.409522845011907]
対話関係抽出(DRE)は,多人数対話で言及される2つのエンティティ間の関係を検出することを目的としている。
本稿では,グラフが有意に接続された話者,エンティティ,エンティティタイプ,発話ノードを含むDREのためのグラフ注意ネットワーク方式を提案する。
このグラフに基づくアプローチは,対話における異なるエンティティペア間の関係を効果的に捉え,最先端のアプローチよりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2020-09-10T18:51:48Z) - Graph Structured Network for Image-Text Matching [127.68148793548116]
微粒化対応学習のためのグラフ構造化マッチングネットワークを提案する。
GSMNは、明示的にオブジェクト、関係、属性を構造化されたフレーズとしてモデル化する。
実験により、GSMNはベンチマークで最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2020-04-01T08:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。