論文の概要: ORD: Object Relationship Discovery for Visual Dialogue Generation
- arxiv url: http://arxiv.org/abs/2006.08322v1
- Date: Mon, 15 Jun 2020 12:25:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 04:52:53.281946
- Title: ORD: Object Relationship Discovery for Visual Dialogue Generation
- Title(参考訳): ORD:ビジュアル対話生成のためのオブジェクト関係発見
- Authors: Ziwei Wang, Zi Huang, Yadan Luo, Huimin Lu
- Abstract要約: 視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
- 参考スコア(独自算出の注目度): 60.471670447176656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of image captioning and visual question answering
at single-round level, the question of how to generate multi-round dialogue
about visual content has not yet been well explored.Existing visual dialogue
methods encode the image into a fixed feature vector directly, concatenated
with the question and history embeddings to predict the response.Some recent
methods tackle the co-reference resolution problem using co-attention mechanism
to cross-refer relevant elements from the image, history, and the target
question.However, it remains challenging to reason visual relationships, since
the fine-grained object-level information is omitted before co-attentive
reasoning. In this paper, we propose an object relationship discovery (ORD)
framework to preserve the object interactions for visual dialogue generation.
Specifically, a hierarchical graph convolutional network (HierGCN) is proposed
to retain the object nodes and neighbour relationships locally, and then
refines the object-object connections globally to obtain the final graph
embeddings. A graph attention is further incorporated to dynamically attend to
this graph-structured representation at the response reasoning stage. Extensive
experiments have proved that the proposed method can significantly improve the
quality of dialogue by utilising the contextual information of visual
relationships. The model achieves superior performance over the
state-of-the-art methods on the Visual Dialog dataset, increasing MRR from
0.6222 to 0.6447, and recall@1 from 48.48% to 51.22%.
- Abstract(参考訳): With the rapid advancement of image captioning and visual question answering at single-round level, the question of how to generate multi-round dialogue about visual content has not yet been well explored.Existing visual dialogue methods encode the image into a fixed feature vector directly, concatenated with the question and history embeddings to predict the response.Some recent methods tackle the co-reference resolution problem using co-attention mechanism to cross-refer relevant elements from the image, history, and the target question.However, it remains challenging to reason visual relationships, since the fine-grained object-level information is omitted before co-attentive reasoning.
本稿では,視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
具体的には、階層型グラフ畳み込みネットワーク(hiergcn)を提案し、オブジェクトノードと隣接関係をローカルに保持し、オブジェクトとオブジェクトの接続をグローバルに洗練し、最終的なグラフ埋め込みを得る。
グラフ注意はさらに、応答推論段階でこのグラフ構造化表現に動的に参加するように組み込まれている。
提案手法は,視覚関係の文脈情報を活用し,対話の質を著しく向上できることが実証された。
このモデルは、Visual Dialogデータセットの最先端メソッドよりも優れたパフォーマンスを実現し、MSRは0.6222から0.6447に増加し、リコール@1は48.48%から51.22%に増加した。
関連論文リスト
- BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation [21.052101309555464]
MDRG(Multimodal Dialogue Response Generation)は、テキスト、画像、あるいは両方で応答を生成する必要があるタスクである。
これまでの作業は、エンドツーエンドアプローチを採用するのではなく、モデルのイメージ入力と出力の両方の中間ステップとして、テキストのモダリティに依存していた。
本稿では、画像コンテンツに対するテキスト応答の関連性を高めるために、画像履歴情報を活用できるように、応答生成経路をブリッジするBI-MDRGを提案する。
論文 参考訳(メタデータ) (2024-08-12T05:22:42Z) - Multi-grained Hypergraph Interest Modeling for Conversational
Recommendation [75.65483522949857]
複雑な履歴データの下でユーザの興味を捉えるために, マルチグラデーション・ハイパーグラフ・インフォメーション・モデリング手法を提案する。
提案手法では,まず,ユーザの過去の対話セッションをモデル化し,セッションベースハイパーグラフを作成するためにハイパーグラフ構造を用いる。
さらに,2種類のハイパーグラフに対して多粒度ハイパーグラフの畳み込みを行い,拡張表現を用いて関心を意識したCRSを開発する。
論文 参考訳(メタデータ) (2023-05-04T13:13:44Z) - Unbiased Heterogeneous Scene Graph Generation with Relation-aware
Message Passing Neural Network [9.779600950401315]
関係認識コンテキストをキャプチャする不偏不均質なシーングラフ生成(HetSGG)フレームワークを提案する。
我々は、画像のコンテキスト情報を集約するRMP(Relation-Aware Message Passing Neural Network)と呼ばれる新しいメッセージパッシング層を考案した。
論文 参考訳(メタデータ) (2022-12-01T11:25:36Z) - Grounding Scene Graphs on Natural Images via Visio-Lingual Message
Passing [17.63475613154152]
本稿では,シーングラフの特定の意味的関係制約に従うオブジェクトを協調的にグラウンド化するためのフレームワークを提案する。
シーングラフは、画像内のすべてのオブジェクトとその意味的関係を表現するための効率的で構造化された方法である。
論文 参考訳(メタデータ) (2022-11-03T16:46:46Z) - Scenes and Surroundings: Scene Graph Generation using Relation
Transformer [13.146732454123326]
この研究は、リレーショナルトランスと呼ばれる新しいローカルコンテキスト対応アーキテクチャを提案する。
階層的マルチヘッドアテンションに基づくアプローチは、オブジェクト間のコンテキスト依存を効率的に捕捉し、それらの関係を予測する。
最先端のアプローチと比較して、私たちは全体として、textbf4.85%の改善を達成しました。
論文 参考訳(メタデータ) (2021-07-12T14:22:20Z) - Learning Reasoning Paths over Semantic Graphs for Video-grounded
Dialogues [73.04906599884868]
対話文脈(PDC)における推論経路の新しい枠組みを提案する。
PDCモデルは、各質問と回答の語彙成分に基づいて構築されたセマンティックグラフを通じて、対話間の情報フローを発見する。
本モデルでは,この推論経路を通じて視覚情報とテキスト情報を逐次的に処理し,提案する特徴を用いて回答を生成する。
論文 参考訳(メタデータ) (2021-03-01T07:39:26Z) - Dialogue Relation Extraction with Document-level Heterogeneous Graph
Attention Networks [21.409522845011907]
対話関係抽出(DRE)は,多人数対話で言及される2つのエンティティ間の関係を検出することを目的としている。
本稿では,グラフが有意に接続された話者,エンティティ,エンティティタイプ,発話ノードを含むDREのためのグラフ注意ネットワーク方式を提案する。
このグラフに基づくアプローチは,対話における異なるエンティティペア間の関係を効果的に捉え,最先端のアプローチよりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2020-09-10T18:51:48Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Dynamic Language Binding in Relational Visual Reasoning [67.85579756590478]
言語結合型オブジェクトグラフネットワークは,視覚領域とテキスト領域の両方にわたる動的関係構造を持つ最初のニューラル推論手法である。
本手法は,複数の対象関係が関係する高度な質問応答タスクにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2020-04-30T06:26:20Z) - Iterative Context-Aware Graph Inference for Visual Dialog [126.016187323249]
本稿では,新しいコンテキスト認識グラフ(CAG)ニューラルネットワークを提案する。
グラフの各ノードは、オブジェクトベース(視覚)と履歴関連(テキスト)コンテキスト表現の両方を含む、共同意味機能に対応している。
論文 参考訳(メタデータ) (2020-04-05T13:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。