論文の概要: Learning Reasoning Paths over Semantic Graphs for Video-grounded
Dialogues
- arxiv url: http://arxiv.org/abs/2103.00820v1
- Date: Mon, 1 Mar 2021 07:39:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-06 07:43:50.730932
- Title: Learning Reasoning Paths over Semantic Graphs for Video-grounded
Dialogues
- Title(参考訳): ビデオベースダイアローグにおけるセマンティックグラフの推論パスの学習
- Authors: Hung Le, Nancy F. Chen, Steven C.H. Hoi
- Abstract要約: 対話文脈(PDC)における推論経路の新しい枠組みを提案する。
PDCモデルは、各質問と回答の語彙成分に基づいて構築されたセマンティックグラフを通じて、対話間の情報フローを発見する。
本モデルでは,この推論経路を通じて視覚情報とテキスト情報を逐次的に処理し,提案する特徴を用いて回答を生成する。
- 参考スコア(独自算出の注目度): 73.04906599884868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compared to traditional visual question answering, video-grounded dialogues
require additional reasoning over dialogue context to answer questions in a
multi-turn setting. Previous approaches to video-grounded dialogues mostly use
dialogue context as a simple text input without modelling the inherent
information flows at the turn level. In this paper, we propose a novel
framework of Reasoning Paths in Dialogue Context (PDC). PDC model discovers
information flows among dialogue turns through a semantic graph constructed
based on lexical components in each question and answer. PDC model then learns
to predict reasoning paths over this semantic graph. Our path prediction model
predicts a path from the current turn through past dialogue turns that contain
additional visual cues to answer the current question. Our reasoning model
sequentially processes both visual and textual information through this
reasoning path and the propagated features are used to generate the answer. Our
experimental results demonstrate the effectiveness of our method and provide
additional insights on how models use semantic dependencies in a dialogue
context to retrieve visual cues.
- Abstract(参考訳): 従来の視覚的質問応答と比較して、ビデオベースの対話は、マルチターン設定で質問に答えるために対話コンテキストよりも追加の推論を必要とします。
ビデオ地上対話に対する従来のアプローチは、主にターンレベルでの固有情報フローをモデル化することなく、単純なテキスト入力として対話コンテキストを使用する。
本稿では,対話文脈におけるReasoning Paths(PDC)の新たな枠組みを提案する。
PDCモデルは、各質問と回答の語彙成分に基づいて構築されたセマンティックグラフを通じて、対話間の情報フローを発見する。
PDCモデルは、この意味グラフ上の推論パスを予測することを学ぶ。
我々の経路予測モデルは、現在の質問に答えるための視覚的手がかりを含む、現在のターンから過去の対話ターンまでの経路を予測する。
我々の推論モデルは、この推論経路を通して視覚情報とテキスト情報の両方を逐次処理し、その解を生成するために伝達特徴を用いる。
提案手法の有効性を実証し,対話コンテキストにおける意味的依存関係を用いて視覚的な手がかりを得る方法について,さらなる知見を提供する。
関連論文リスト
- Unsupervised Extraction of Dialogue Policies from Conversations [3.102576158218633]
本稿では,データセットから対話ポリシーを抽出する上で,Large Language Modelがいかに有効かを示す。
そこで我々は,制御可能かつ解釈可能なグラフベースの手法を用いて対話ポリシーを生成する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T14:57:25Z) - Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。
対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。
また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T11:03:55Z) - PK-Chat: Pointer Network Guided Knowledge Driven Generative Dialogue
Model [79.64376762489164]
PK-Chatは、知識グラフ上のポインタネットワークと、事前訓練された言語モデルを組み合わせた、ポインタネットワーク誘導生成対話モデルである。
PK-Chatが対話で生成した単語は、単語リストの予測と外部知識グラフ知識の直接予測から導かれる。
PK-Chatに基づく対話システムは、地球科学の学術シナリオ向けに構築されている。
論文 参考訳(メタデータ) (2023-04-02T18:23:13Z) - CTRLStruct: Dialogue Structure Learning for Open-Domain Response
Generation [38.60073402817218]
十分に構造化されたトピックフローは、バックグラウンド情報を活用し、将来のトピックを予測することで、制御可能で説明可能な応答を生成する。
本稿では,話題レベルの対話クラスタを効果的に探索する対話構造学習のための新しいフレームワークを提案する。
2つの人気のあるオープンドメイン対話データセットの実験は、優れた対話モデルと比較して、我々のモデルはより一貫性のある応答を生成できることを示している。
論文 参考訳(メタデータ) (2023-03-02T09:27:11Z) - VD-PCR: Improving Visual Dialog with Pronoun Coreference Resolution [79.05412803762528]
ビジュアルダイアログタスクでは、視覚環境に基づいたマルチラウンドダイアログにおいて、AIエージェントが人間と対話する必要がある。
本稿では,Pronoun Coreference Resolution を用いたビジュアルダイアログ理解のための新しいフレームワーク VD-PCR を提案する。
提案した暗黙的および明示的手法により、VD-PCRはVisDialデータセット上で最先端の実験結果を得る。
論文 参考訳(メタデータ) (2022-05-29T15:29:50Z) - Back to the Future: Bidirectional Information Decoupling Network for
Multi-turn Dialogue Modeling [80.51094098799736]
ユニバーサル対話エンコーダとして双方向情報デカップリングネットワーク(BiDeN)を提案する。
BiDeNは過去と将来の両方のコンテキストを明示的に取り入れており、幅広い対話関連のタスクに一般化することができる。
異なる下流タスクのデータセットに対する実験結果は、我々のBiDeNの普遍性と有効性を示している。
論文 参考訳(メタデータ) (2022-04-18T03:51:46Z) - Reasoning with Multi-Structure Commonsense Knowledge in Visual Dialog [12.034554338597067]
マルチストラクチャ・コモンセンス・ナレッジ(RMK)を用いた新しいモデルを提案する。
我々のモデルでは、外部知識は文レベルの事実とグラフレベルの事実で表される。
これらの多構造表現の上に、我々のモデルは関連する知識を捉え、それらを視覚と意味的特徴に組み込むことができる。
論文 参考訳(メタデータ) (2022-04-10T13:12:10Z) - Graph Based Network with Contextualized Representations of Turns in
Dialogue [0.0]
対話に基づく関係抽出(RE)は、対話に現れる2つの引数間の関係を抽出することを目的としている。
本稿では,対話の理解方法に着目したTUCORE-GCN(TUrn Context aware Graph Convolutional Network)を提案する。
論文 参考訳(メタデータ) (2021-09-09T03:09:08Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z) - Local Contextual Attention with Hierarchical Structure for Dialogue Act
Recognition [14.81680798372891]
我々は,自己意図に基づく階層モデルを構築し,文内および文間情報をキャプチャする。
ダイアログの長さがパフォーマンスに影響することから,新たなダイアログセグメンテーション機構を導入する。
論文 参考訳(メタデータ) (2020-03-12T22:26:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。