論文の概要: Reasoning Visual Dialog with Sparse Graph Learning and Knowledge
Transfer
- arxiv url: http://arxiv.org/abs/2004.06698v2
- Date: Tue, 31 Aug 2021 01:14:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 08:47:50.035605
- Title: Reasoning Visual Dialog with Sparse Graph Learning and Knowledge
Transfer
- Title(参考訳): 疎グラフ学習と知識伝達を用いた推論ビジュアルダイアログ
- Authors: Gi-Cheon Kang, Junseok Park, Hwaran Lee, Byoung-Tak Zhang, Jin-Hwa Kim
- Abstract要約: グラフ構造学習タスクとして視覚対話を定式化するためのスパースグラフ学習(SGL)手法を提案する。
次に,教師モデルから回答予測を抽出し,擬似ラベルとして利用する知識伝達(KT)手法を提案する。
提案手法は,ベースライン手法と比較して推論能力を大幅に向上させ,VisDial v1.0データセットの最先端手法よりも優れている。
- 参考スコア(独自算出の注目度): 22.820709255518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual dialog is a task of answering a sequence of questions grounded in an
image using the previous dialog history as context. In this paper, we study how
to address two fundamental challenges for this task: (1) reasoning over
underlying semantic structures among dialog rounds and (2) identifying several
appropriate answers to the given question. To address these challenges, we
propose a Sparse Graph Learning (SGL) method to formulate visual dialog as a
graph structure learning task. SGL infers inherently sparse dialog structures
by incorporating binary and score edges and leveraging a new structural loss
function. Next, we introduce a Knowledge Transfer (KT) method that extracts the
answer predictions from the teacher model and uses them as pseudo labels. We
propose KT to remedy the shortcomings of single ground-truth labels, which
severely limit the ability of a model to obtain multiple reasonable answers. As
a result, our proposed model significantly improves reasoning capability
compared to baseline methods and outperforms the state-of-the-art approaches on
the VisDial v1.0 dataset. The source code is available at
https://github.com/gicheonkang/SGLKT-VisDial.
- Abstract(参考訳): ビジュアルダイアログは、以前のダイアログ履歴をコンテキストとして、画像に根拠付けられた一連の質問に答えるタスクである。
本稿では,(1)ダイアログラウンド間のセマンティック構造を推論し,(2)与えられた質問に対する適切な回答を識別する,という2つの基本的な課題に対処する方法を検討する。
これらの課題に対処するために,ビジュアルダイアログをグラフ構造学習タスクとして定式化するスパースグラフ学習(sgl)手法を提案する。
SGLは、バイナリとスコアエッジを統合し、新しい構造損失関数を活用することで、本質的にスパースなダイアログ構造を推論する。
次に,教師モデルから回答予測を抽出し,擬似ラベルとして利用する知識伝達(KT)手法を提案する。
我々は,モデルが複数の妥当な解を得る能力を著しく制限する単一接地トラスラベルの欠点を解決するために,KTを提案する。
その結果,提案モデルはベースライン法に比べて推論能力を大幅に向上させ,v1.0データセットにおける最先端のアプローチを上回っている。
ソースコードはhttps://github.com/gicheonkang/SGLKT-VisDialで入手できる。
関連論文リスト
- Generative Subgraph Retrieval for Knowledge Graph-Grounded Dialog Generation [17.437568540883106]
ダイアログGSR(Generative Subgraph Retrieval)を用いたダイアログ生成を提案する。
DialogGSRは、言語モデル上にトークンシーケンスを直接生成することで、関連する知識サブグラフを取得する。
OpenDialKGとKOMODISデータセットで示されるように、知識グラフ基底ダイアログ生成における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-12T03:33:42Z) - Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - Integrating Large Language Models with Graph-based Reasoning for Conversational Question Answering [58.17090503446995]
我々は,テキストや知識グラフ,テーブル,インフォボックスといった異質な情報源から収集された証拠について,文脈における質問の理解と推論の課題を組み合わせた会話型質問応答タスクに着目する。
提案手法はグラフ構造表現を用いて質問とその文脈に関する情報を集約する。
論文 参考訳(メタデータ) (2024-06-14T13:28:03Z) - SPACE-2: Tree-Structured Semi-Supervised Contrastive Pre-training for
Task-Oriented Dialog Understanding [68.94808536012371]
本稿では,限定ラベル付きダイアログと大規模未ラベルダイアログコーパスから対話表現を学習する,木構造付き事前学習会話モデルを提案する。
提案手法は,7つのデータセットと4つの一般的な対話理解タスクからなるDialoGLUEベンチマークにおいて,最新の結果が得られる。
論文 参考訳(メタデータ) (2022-09-14T13:42:50Z) - GRASP: Guiding model with RelAtional Semantics using Prompt [3.1275060062551208]
本稿では Prompt (GRASP) を用いたRelAtional Semantics を用いた誘導モデルを提案する。
我々は、プロンプトベースの微調整アプローチを採用し、引数を意識したプロンプトマーカー戦略を用いて、ある対話における関係意味的手がかりをキャプチャする。
実験では、DialogREデータセット上でのF1とF1cのスコアの観点から、GRASPの最先端のパフォーマンスが評価された。
論文 参考訳(メタデータ) (2022-08-26T08:19:28Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Reasoning in Dialog: Improving Response Generation by Context Reading
Comprehension [49.92173751203827]
マルチターンダイアログでは、発話が文の完全な形を取るとは限らない。
読み解きの質問に答えるモデルの能力を検討し、応答生成性能の向上を提案する。
論文 参考訳(メタデータ) (2020-12-14T10:58:01Z) - GraphDialog: Integrating Graph Knowledge into End-to-End Task-Oriented
Dialogue Systems [9.560436630775762]
エンドツーエンドのタスク指向対話システムは,平易なテキスト入力から直接システム応答を生成することを目的としている。
1つは、外部知識ベース(KB)を学習フレームワークに効果的に組み込む方法であり、もう1つは、対話履歴のセマンティクスを正確に捉える方法である。
この2つの課題は、知識ベースと対話の依存性解析ツリーにおけるグラフ構造情報を活用することで解決される。
論文 参考訳(メタデータ) (2020-10-04T00:04:40Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。