論文の概要: Information-Theoretic Text Hallucination Reduction for Video-grounded
Dialogue
- arxiv url: http://arxiv.org/abs/2212.05765v1
- Date: Mon, 12 Dec 2022 08:38:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 15:08:47.773268
- Title: Information-Theoretic Text Hallucination Reduction for Video-grounded
Dialogue
- Title(参考訳): ビデオグラウンデッド対話における情報理論的テキスト幻覚低減
- Authors: Sunjae Yoon, Eunseop Yoon, Hee Suk Yoon, Junyeong Kim, Chang D. Yoo
- Abstract要約: ビデオグラウンドド・ダイアログ(VGD)は、与えられたビデオと対話コンテキストに関する質問に対して、回答文をデコードすることを目的としている。
応答文を生成するマルチモーダル推論が最近成功しているにもかかわらず、既存の対話システムは今でもテキスト幻覚の問題に悩まされている。
これは、データセットの回答文が通常入力テキストの単語を含むという事実から、素早い相関関係を学習するためである。
- 参考スコア(独自算出の注目度): 18.91679947656086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-grounded Dialogue (VGD) aims to decode an answer sentence to a question
regarding a given video and dialogue context. Despite the recent success of
multi-modal reasoning to generate answer sentences, existing dialogue systems
still suffer from a text hallucination problem, which denotes indiscriminate
text-copying from input texts without an understanding of the question. This is
due to learning spurious correlations from the fact that answer sentences in
the dataset usually include the words of input texts, thus the VGD system
excessively relies on copying words from input texts by hoping those words to
overlap with ground-truth texts. Hence, we design Text Hallucination Mitigating
(THAM) framework, which incorporates Text Hallucination Regularization (THR)
loss derived from the proposed information-theoretic text hallucination
measurement approach. Applying THAM with current dialogue systems validates the
effectiveness on VGD benchmarks (i.e., AVSD@DSTC7 and AVSD@DSTC8) and shows
enhanced interpretability.
- Abstract(参考訳): ビデオグラウンドド・ダイアログ(VGD)は、与えられたビデオと対話コンテキストに関する質問に対して、回答文をデコードすることを目的としている。
最近のマルチモーダル推論による回答文生成の成功にもかかわらず、既存の対話システムは依然として、質問を理解せずに入力テキストからのテキストコピーを区別しないテキスト幻覚問題に苦しんでいる。
これは、データセット内の回答文が通常入力テキストの単語を含むという事実から、スプリアスな相関を学習するためであり、vgdシステムは入力テキストから単語を過度にコピーし、それらの単語が接頭辞のテキストと重なり合うことを期待している。
そこで我々は,提案した情報理論テキスト幻覚測定手法から得られたテキスト幻覚正規化(THR)損失を組み込んだTHAM(Text Hallucination Mitigating)フレームワークを設計する。
THAMを現在の対話システムに適用すると、VGDベンチマーク(AVSD@DSTC7とAVSD@DSTC8)の有効性が検証され、高い解釈可能性を示す。
関連論文リスト
- Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - Context Does Matter: Implications for Crowdsourced Evaluation Labels in Task-Oriented Dialogue Systems [57.16442740983528]
クラウドソースラベルは、タスク指向の対話システムを評価する上で重要な役割を果たす。
従来の研究では、アノテーションプロセスで対話コンテキストの一部だけを使用することが提案されている。
本研究では,対話文脈がアノテーション品質に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2024-04-15T17:56:39Z) - A Cause-Effect Look at Alleviating Hallucination of Knowledge-grounded Dialogue Generation [51.53917938874146]
我々は,対話知識の相互作用を利用して,KGDの幻覚を緩和するための解決策を提案する。
本手法は,他の対話性能を損なうことなく幻覚を低減できることを示す。
論文 参考訳(メタデータ) (2024-04-04T14:45:26Z) - Mitigating Dialogue Hallucination for Large Vision Language Models via Adversarial Instruction Tuning [45.07281499878865]
LVLM(Large Vision Language Models)の幻覚は、汎用アシスタントの信頼性を高めるために重要である。
本稿では,従来のユーザ・システム対話によってLVLMの幻覚が著しく悪化することを示す。
このバイアスを軽減するために,幻覚的対話に対してLVLMを頑健に微調整するAdversarial Instruction Tuning (AIT)を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:27:12Z) - Uncovering Hidden Connections: Iterative Search and Reasoning for Video-grounded Dialog [83.63849872250651]
ビデオグラウンドダイアログは、正確な応答生成のために、ダイアログ履歴とビデオコンテンツの両方を深く理解する必要がある。
本稿では,テキストエンコーダ,ビジュアルエンコーダ,ジェネレータで構成される反復探索・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-11T07:37:13Z) - Diving Deep into Modes of Fact Hallucinations in Dialogue Systems [2.8360662552057323]
知識グラフ(KG)に基づく会話は、しばしば大きな事前訓練されたモデルを使用し、通常、事実幻覚に悩まされる。
我々は、応答を生成しながら、誤った内容を制御する微妙な信号を提供するエンティティレベルの幻覚検出システムを構築した。
論文 参考訳(メタデータ) (2023-01-11T13:08:57Z) - VALHALLA: Visual Hallucination for Machine Translation [64.86515924691899]
VALHALLAと呼ばれる視覚幻覚フレームワークを導入する。
推論時にのみソース文を必要とし、代わりにマルチモーダル機械翻訳に幻覚的視覚表現を使用する。
特に、ソース文が与えられた場合、入力テキストから離散的な視覚表現を予測するために自己回帰幻覚変換器が使用される。
論文 参考訳(メタデータ) (2022-05-31T20:25:15Z) - Survey of Hallucination in Natural Language Generation [69.9926849848132]
近年,シーケンス間深層学習技術の発展により,自然言語生成(NLG)は指数関数的に向上している。
深層学習に基づく生成は意図しないテキストを幻覚させる傾向があるため、システム性能は低下する。
この調査は、NLGにおける幻覚テキストの課題に取り組む研究者の協力活動を促進するのに役立つ。
論文 参考訳(メタデータ) (2022-02-08T03:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。