論文の概要: FineDialFact: A benchmark for Fine-grained Dialogue Fact Verification
- arxiv url: http://arxiv.org/abs/2508.05782v1
- Date: Thu, 07 Aug 2025 18:51:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:05.985723
- Title: FineDialFact: A benchmark for Fine-grained Dialogue Fact Verification
- Title(参考訳): FineDialFact: 詳細な対話ファクト検証のためのベンチマーク
- Authors: Xiangyan Chen, Yufeng Li, Yujian Gan, Arkaitz Zubiaga, Matthew Purver,
- Abstract要約: 大型言語モデル (LLM) は幻覚を生み出すことが知られている。
対話システムにおける幻覚検出への現在のアプローチは、主に生成された応答の事実整合性を検証することに焦点を当てている。
詳細な対話事実検証のためのベンチマークであるFinDialFactを導入する。
- 参考スコア(独自算出の注目度): 45.2458418225596
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are known to produce hallucinations - factually incorrect or fabricated information - which poses significant challenges for many Natural Language Processing (NLP) applications, such as dialogue systems. As a result, detecting hallucinations has become a critical area of research. Current approaches to hallucination detection in dialogue systems primarily focus on verifying the factual consistency of generated responses. However, these responses often contain a mix of accurate, inaccurate or unverifiable facts, making one factual label overly simplistic and coarse-grained. In this paper, we introduce a benchmark, FineDialFact, for fine-grained dialogue fact verification, which involves verifying atomic facts extracted from dialogue responses. To support this, we construct a dataset based on publicly available dialogue datasets and evaluate it using various baseline methods. Experimental results demonstrate that methods incorporating Chain-of-Thought (CoT) reasoning can enhance performance in dialogue fact verification. Despite this, the best F1-score achieved on the HybriDialogue, an open-domain dialogue dataset, is only 0.75, indicating that the benchmark remains a challenging task for future research. Our dataset and code will be public on GitHub.
- Abstract(参考訳): LLM(Large Language Models)は、対話システムのような多くの自然言語処理(NLP)アプリケーションに重大な課題をもたらす幻覚(実際は誤りまたは偽情報)を生み出すことで知られている。
その結果,幻覚の検出は研究の重要な領域となっている。
対話システムにおける幻覚検出への現在のアプローチは、主に生成された応答の事実整合性を検証することに焦点を当てている。
しかし、これらの反応には正確な、不正確な、または不正確な事実が混ざり合っており、1つの事実ラベルは単純化され、粗い粒度になっている。
本稿では,対話応答から抽出された原子的事実の検証を含む,詳細な対話事実検証のためのベンチマークであるFinDialFactを紹介する。
これをサポートするために、公開可能な対話データセットに基づいてデータセットを構築し、様々なベースライン手法を用いて評価する。
実験結果から,Chain-of-Thought(CoT)推論を取り入れた手法により,対話事実検証の性能向上が期待できることがわかった。
これにもかかわらず、オープンドメインの対話データセットであるHybriDialogueで達成された最高のF1スコアはわずか0.75であり、このベンチマークは将来の研究にとって難しい課題であることを示している。
データセットとコードはGitHubで公開されます。
関連論文リスト
- Hallucination Detection with Small Language Models [1.9181612035055007]
本稿では,大規模言語モデルによって生成された応答を検証するために,複数の小言語モデルを統合するフレームワークを提案する。
その結果,幻覚と比較してF1スコアが10%改善し,正しい反応が検出できた。
論文 参考訳(メタデータ) (2025-06-24T02:19:26Z) - Improving Factuality for Dialogue Response Generation via Graph-Based Knowledge Augmentation [8.423723358002539]
LLM(Large Language Models)は、定型的だが矛盾するテキストを生成する。
本稿では,TG-DRGによる対話応答生成とGA-DRGによる対話応答生成の2つの新しいフレームワークを提案する。
TG-DRGは、推論誘導型対話再構成、対話感覚知識選択、グラフ強調応答生成を組み合わせることで、対話応答の事実性を改善する。
論文 参考訳(メタデータ) (2025-06-14T13:17:27Z) - CoPrUS: Consistency Preserving Utterance Synthesis towards more realistic benchmark dialogues [0.27309692684728604]
自動パイプラインにおける合成通信エラーの生成について検討する。
実世界の対話では起こりうるが、ベンチマークデータセットでは表現できない3種類のコミュニケーションに焦点をあてる。
我々の2段階のアプローチは、最先端のLarge Language Model (LLM) を使用して、まずエラーを生成し、次に補修発話を作成します。
論文 参考訳(メタデータ) (2024-12-10T13:51:55Z) - Detecting Response Generation Not Requiring Factual Judgment [14.921007421043198]
本研究は, 事実正当性判定を必要としない文を予測するタスクが設定された対話応答において, 魅力と事実性を両立することを目的とした。
クラウドソーシングにより,ファクトチェック関連ラベル(DDFC)を付加したデータセットと対話データセットを作成し,このデータセットを用いて複数のモデルで分類タスクを行った。
分類精度が最も高いモデルでは、およそ88%の正確な分類結果が得られる。
論文 参考訳(メタデータ) (2024-06-14T04:03:24Z) - $\textit{Dial BeInfo for Faithfulness}$: Improving Factuality of
Information-Seeking Dialogue via Behavioural Fine-Tuning [55.96744451743273]
本稿では,情報探索対話システムを支援する行動調整手法であるBeInfoを紹介する。
私たちは、BeInfoでチューニングされたモデルが、知識ソースにかなり忠実になることを示します。
また、BeInfoで調整された3Bパラメータを持つモデルが実運用時の会話からのデータに対して強い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-11-16T11:25:44Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - RefGPT: Dialogue Generation of GPT, by GPT, and for GPT [61.451780081612974]
大規模言語モデル(LLM)は、高品質な命令データを微調整することで、幅広いNLPタスクを解決するという印象的な能力を達成した。
しかし、高品質な人文データ、特にマルチターン対話の収集は高価であり、ほとんどの人にとっては不可能である。
本稿では,RefGPTと呼ばれる手法を用いて,モデル幻覚による事実の誤りを気にすることなく,真理でカスタマイズされた対話を生成する手法を提案する。
論文 参考訳(メタデータ) (2023-05-24T10:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。