論文の概要: GoG: Relation-aware Graph-over-Graph Network for Visual Dialog
- arxiv url: http://arxiv.org/abs/2109.08475v1
- Date: Fri, 17 Sep 2021 11:37:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 19:44:34.414560
- Title: GoG: Relation-aware Graph-over-Graph Network for Visual Dialog
- Title(参考訳): GoG:ビジュアルダイアログのための関係対応グラフオーバーグラフネットワーク
- Authors: Feilong Chen, Xiuyi Chen, Fandong Meng, Peng Li, Jie Zhou
- Abstract要約: 画像やダイアログ内のオブジェクト間の暗黙の関係をモデル化するために、グラフニューラルネットワークが最近適用されている。
視覚対話のための新しい関係対応グラフオーバーグラフネットワーク(GoG)を提案する。
GoGは3つの逐次グラフから構成される。1) ダイアログ履歴間のコア参照関係のキャプチャを目的としたHグラフ,2) ダイアログ履歴のコア参照解決に基づく単語間の依存性関係のキャプチャによる質問の完全理解を目的とした履歴対応Qグラフ,3) 完全質問表現に基づく画像内のオブジェクト間の関係のキャプチャを目的とした質問認識Iグラフ。
- 参考スコア(独自算出の注目度): 25.57530524167637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual dialog, which aims to hold a meaningful conversation with humans about
a given image, is a challenging task that requires models to reason the complex
dependencies among visual content, dialog history, and current questions. Graph
neural networks are recently applied to model the implicit relations between
objects in an image or dialog. However, they neglect the importance of 1)
coreference relations among dialog history and dependency relations between
words for the question representation; and 2) the representation of the image
based on the fully represented question. Therefore, we propose a novel
relation-aware graph-over-graph network (GoG) for visual dialog. Specifically,
GoG consists of three sequential graphs: 1) H-Graph, which aims to capture
coreference relations among dialog history; 2) History-aware Q-Graph, which
aims to fully understand the question through capturing dependency relations
between words based on coreference resolution on the dialog history; and 3)
Question-aware I-Graph, which aims to capture the relations between objects in
an image based on fully question representation. As an additional feature
representation module, we add GoG to the existing visual dialogue model.
Experimental results show that our model outperforms the strong baseline in
both generative and discriminative settings by a significant margin.
- Abstract(参考訳): 与えられた画像について人間と有意義な会話をすることを目的としたビジュアルダイアログは、モデルが視覚コンテンツ、ダイアログ履歴、現在の質問に複雑な依存関係を推論する必要があるという課題である。
画像やダイアログ内のオブジェクト間の暗黙の関係をモデル化するために、グラフニューラルネットワークが最近適用されている。
しかし 彼らはその重要性を無視し
1) 対話履歴のコア参照関係と質問表現のための単語間の依存関係関係
2) 画像の表示は,完全表示された質問に基づいて行う。
そこで,視覚対話のための新しい関係対応グラフオーバーグラフネットワーク(GoG)を提案する。
具体的には、GoGは3つの連続グラフから構成される。
1) 対話履歴間の相互参照関係を捉えることを目的としたhグラフ
2) 対話履歴のコア参照解決に基づく単語間の係り受け関係の把握による質問の完全理解を目的とした歴史対応Qグラフ
3)完全な質問表現に基づく画像内のオブジェクト間の関係の把握を目的とした質問認識I-Graph。
追加の機能表現モジュールとして、既存の視覚対話モデルにGoGを追加します。
実験の結果, 生成的および判別的設定において, モデルが強いベースラインを上回ることがわかった。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。
一般のテキストグラフに対する最初の検索拡張生成(RAG)手法を提案する。
G-Retrieverは、このタスクをSteiner Tree最適化問題として定式化し、グラフ上でRAGを実行する。
論文 参考訳(メタデータ) (2024-02-12T13:13:04Z) - Conversational Semantic Parsing using Dynamic Context Graphs [68.72121830563906]
汎用知識グラフ(KG)を用いた会話意味解析の課題を,数百万のエンティティと数千のリレーショナルタイプで検討する。
ユーザ発話を実行可能な論理形式にインタラクティブにマッピングできるモデルに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-04T16:04:41Z) - Image Semantic Relation Generation [0.76146285961466]
シーングラフは複雑な画像情報を排除し、意味レベルの関係を利用して視覚モデルのバイアスを修正することができる。
本研究では,画像意味関係生成(ISRG)を提案する。
論文 参考訳(メタデータ) (2022-10-19T16:15:19Z) - GraghVQA: Language-Guided Graph Neural Networks for Graph-based Visual
Question Answering [4.673063715963991]
Scene Graphはオブジェクトをエッジとしてペアワイズリレーションを介して接続されたノードとしてエンコードします。
自然言語質問の翻訳と実行を行う言語誘導グラフニューラルネットワークフレームワークであるGraphVQAを提案する。
GQAデータセットに対する実験により、GraphVQAは最先端の精度を大きなマージンで上回ることを示した。
論文 参考訳(メタデータ) (2021-04-20T23:54:41Z) - Dialogue Relation Extraction with Document-level Heterogeneous Graph
Attention Networks [21.409522845011907]
対話関係抽出(DRE)は,多人数対話で言及される2つのエンティティ間の関係を検出することを目的としている。
本稿では,グラフが有意に接続された話者,エンティティ,エンティティタイプ,発話ノードを含むDREのためのグラフ注意ネットワーク方式を提案する。
このグラフに基づくアプローチは,対話における異なるエンティティペア間の関係を効果的に捉え,最先端のアプローチよりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2020-09-10T18:51:48Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z) - Iterative Context-Aware Graph Inference for Visual Dialog [126.016187323249]
本稿では,新しいコンテキスト認識グラフ(CAG)ニューラルネットワークを提案する。
グラフの各ノードは、オブジェクトベース(視覚)と履歴関連(テキスト)コンテキスト表現の両方を含む、共同意味機能に対応している。
論文 参考訳(メタデータ) (2020-04-05T13:09:37Z) - Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。
過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。
本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文 参考訳(メタデータ) (2020-01-17T14:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。