論文の概要: Information-Theoretic Text Hallucination Reduction for Video-grounded
Dialogue
- arxiv url: http://arxiv.org/abs/2212.05765v1
- Date: Mon, 12 Dec 2022 08:38:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 15:08:47.773268
- Title: Information-Theoretic Text Hallucination Reduction for Video-grounded
Dialogue
- Title(参考訳): ビデオグラウンデッド対話における情報理論的テキスト幻覚低減
- Authors: Sunjae Yoon, Eunseop Yoon, Hee Suk Yoon, Junyeong Kim, Chang D. Yoo
- Abstract要約: ビデオグラウンドド・ダイアログ(VGD)は、与えられたビデオと対話コンテキストに関する質問に対して、回答文をデコードすることを目的としている。
応答文を生成するマルチモーダル推論が最近成功しているにもかかわらず、既存の対話システムは今でもテキスト幻覚の問題に悩まされている。
これは、データセットの回答文が通常入力テキストの単語を含むという事実から、素早い相関関係を学習するためである。
- 参考スコア(独自算出の注目度): 18.91679947656086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-grounded Dialogue (VGD) aims to decode an answer sentence to a question
regarding a given video and dialogue context. Despite the recent success of
multi-modal reasoning to generate answer sentences, existing dialogue systems
still suffer from a text hallucination problem, which denotes indiscriminate
text-copying from input texts without an understanding of the question. This is
due to learning spurious correlations from the fact that answer sentences in
the dataset usually include the words of input texts, thus the VGD system
excessively relies on copying words from input texts by hoping those words to
overlap with ground-truth texts. Hence, we design Text Hallucination Mitigating
(THAM) framework, which incorporates Text Hallucination Regularization (THR)
loss derived from the proposed information-theoretic text hallucination
measurement approach. Applying THAM with current dialogue systems validates the
effectiveness on VGD benchmarks (i.e., AVSD@DSTC7 and AVSD@DSTC8) and shows
enhanced interpretability.
- Abstract(参考訳): ビデオグラウンドド・ダイアログ(VGD)は、与えられたビデオと対話コンテキストに関する質問に対して、回答文をデコードすることを目的としている。
最近のマルチモーダル推論による回答文生成の成功にもかかわらず、既存の対話システムは依然として、質問を理解せずに入力テキストからのテキストコピーを区別しないテキスト幻覚問題に苦しんでいる。
これは、データセット内の回答文が通常入力テキストの単語を含むという事実から、スプリアスな相関を学習するためであり、vgdシステムは入力テキストから単語を過度にコピーし、それらの単語が接頭辞のテキストと重なり合うことを期待している。
そこで我々は,提案した情報理論テキスト幻覚測定手法から得られたテキスト幻覚正規化(THR)損失を組み込んだTHAM(Text Hallucination Mitigating)フレームワークを設計する。
THAMを現在の対話システムに適用すると、VGDベンチマーク(AVSD@DSTC7とAVSD@DSTC8)の有効性が検証され、高い解釈可能性を示す。
関連論文リスト
- Uncovering Hidden Connections: Iterative Tracking and Reasoning for
Video-grounded Dialog [88.6246765178364]
本稿では,テキストエンコーダ,ビジュアルエンコーダ,ジェネレータを併用する反復的追跡・推論手法を提案する。
2つの有名なデータセットで実施した経験的評価は、提案した設計の長所と順応性を証明するものである。
論文 参考訳(メタデータ) (2023-10-11T07:37:13Z) - Improving Joint Speech-Text Representations Without Alignment [92.60384956736536]
本研究では, 連続長を無視することで, 音節間の一貫した表現を自然に実現できることを示す。
一貫性の喪失は長さの差を許し、最適のアライメントを前提にできると我々は主張する。
論文 参考訳(メタデータ) (2023-08-11T13:28:48Z) - Trapping LLM Hallucinations Using Tagged Context Prompts [11.655802601887197]
本稿では,大規模言語モデルがドメイン知識の外部で実行された場合に,インスタンスを認識・フラグする新しい手法を提案する。
組込みタグと組み合わされたコンテキストを用いることで,生成言語モデル内の幻覚に対処できることが判明した。
論文 参考訳(メタデータ) (2023-06-09T17:48:54Z) - Diving Deep into Modes of Fact Hallucinations in Dialogue Systems [2.8360662552057323]
知識グラフ(KG)に基づく会話は、しばしば大きな事前訓練されたモデルを使用し、通常、事実幻覚に悩まされる。
我々は、応答を生成しながら、誤った内容を制御する微妙な信号を提供するエンティティレベルの幻覚検出システムを構築した。
論文 参考訳(メタデータ) (2023-01-11T13:08:57Z) - VALHALLA: Visual Hallucination for Machine Translation [64.86515924691899]
VALHALLAと呼ばれる視覚幻覚フレームワークを導入する。
推論時にのみソース文を必要とし、代わりにマルチモーダル機械翻訳に幻覚的視覚表現を使用する。
特に、ソース文が与えられた場合、入力テキストから離散的な視覚表現を予測するために自己回帰幻覚変換器が使用される。
論文 参考訳(メタデータ) (2022-05-31T20:25:15Z) - Survey of Hallucination in Natural Language Generation [71.70363756667832]
近年,シーケンス間深層学習技術の発展により,自然言語生成(NLG)は指数関数的に向上している。
深層学習に基づく生成は意図しないテキストを幻覚させる傾向があるため、システム性能は低下する。
この調査は、NLGにおける幻覚テキストの課題に取り組む研究者の協力活動を促進するのに役立つ。
論文 参考訳(メタデータ) (2022-02-08T03:55:01Z) - A Token-level Reference-free Hallucination Detection Benchmark for
Free-form Text Generation [50.55448707570669]
本稿ではトークンレベルの参照なし幻覚検出タスクとHaDesというアノテーション付きデータセットを提案する。
このデータセットを作成するために、まず英語のウィキペディアから抽出された大量のテキストセグメントを摂り込み、それからクラウドソースアノテーションで検証する。
論文 参考訳(メタデータ) (2021-04-18T04:09:48Z) - Learning Reasoning Paths over Semantic Graphs for Video-grounded
Dialogues [73.04906599884868]
対話文脈(PDC)における推論経路の新しい枠組みを提案する。
PDCモデルは、各質問と回答の語彙成分に基づいて構築されたセマンティックグラフを通じて、対話間の情報フローを発見する。
本モデルでは,この推論経路を通じて視覚情報とテキスト情報を逐次的に処理し,提案する特徴を用いて回答を生成する。
論文 参考訳(メタデータ) (2021-03-01T07:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。