論文の概要: Fine-Refine: Iterative Fine-grained Refinement for Mitigating Dialogue Hallucination
- arxiv url: http://arxiv.org/abs/2602.15509v1
- Date: Tue, 17 Feb 2026 11:33:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.047205
- Title: Fine-Refine: Iterative Fine-grained Refinement for Mitigating Dialogue Hallucination
- Title(参考訳): 微粒化 : 対話幻覚の緩和のための反復的微粒化
- Authors: Xiangyan Chen, Yujian Gan, Matthew Purver,
- Abstract要約: 幻覚は、ユーザを誤解させ、システムの信頼を損なう可能性のある、事実的に誤った反応を生み出す。
既存の対話システムの改良手法は、通常応答レベルで動作し、単一の応答が複数の検証不可能な事実を含む可能性があるという事実を見下ろしている。
本研究では, 応答を原子単位に分解し, 外部知識を用いて各単位を検証し, パープレキシティによる流速評価を行い, 繰り返し的に粒度誤差を補正するファイン・リファイン(Fine-Refine)を提案する。
- 参考スコア(独自算出の注目度): 6.907950142408847
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The tendency for hallucination in current large language models (LLMs) negatively impacts dialogue systems. Such hallucinations produce factually incorrect responses that may mislead users and undermine system trust. Existing refinement methods for dialogue systems typically operate at the response level, overlooking the fact that a single response may contain multiple verifiable or unverifiable facts. To address this gap, we propose Fine-Refine, a fine-grained refinement framework that decomposes responses into atomic units, verifies each unit using external knowledge, assesses fluency via perplexity, and iteratively corrects granular errors. We evaluate factuality across the HybriDialogue and OpendialKG datasets in terms of factual accuracy (fact score) and coverage (Not Enough Information Proportion), and experiments show that Fine-Refine substantially improves factuality, achieving up to a 7.63-point gain in dialogue fact score, with a small trade-off in dialogue quality.
- Abstract(参考訳): 現在の大言語モデル(LLM)における幻覚の傾向は対話システムに悪影響を及ぼす。
このような幻覚は、ユーザを誤解させ、システムの信頼を損なう可能性のある、事実的に誤った反応をもたらす。
既存の対話システムの改良手法は、通常応答レベルで動作し、単一の応答が複数の検証不可能な事実を含む可能性があるという事実を見下ろしている。
このギャップに対処するため, 反応を原子単位に分解し, 外部知識を用いて各単位を検証し, パープレキシティによる流速評価を行い, 繰り返し的に粒度誤差を補正するファイン・リファイン(Fine-Refine)を提案する。
我々は,HybriDialogue と OpendialKG データセットの事実の正確性(ファクトスコア)とカバレッジ (Not Enough Information Proportion) の観点から実感性を評価するとともに,ファインリファインメントは,対話事実スコアの7.63ポイント向上を達成し,対話品質のトレードオフを小さくした。
関連論文リスト
- VISTA Score: Verification In Sequential Turn-based Assessment [18.318681275086902]
VISTAは,クレームレベルの検証と逐次一貫性トラッキングを通じて,会話の事実性を評価するためのフレームワークである。
VISTAは、各アシスタントをアトミックな事実的クレームに分解し、信頼された情報源や対話履歴に対して検証し、検証不可能なステートメントを分類する。
人間による評価では、VISTAの分解はアノテーションの一致を改善し、既存のベンチマークの不整合を明らかにする。
論文 参考訳(メタデータ) (2025-10-30T23:45:13Z) - FineDialFact: A benchmark for Fine-grained Dialogue Fact Verification [45.2458418225596]
大型言語モデル (LLM) は幻覚を生み出すことが知られている。
対話システムにおける幻覚検出への現在のアプローチは、主に生成された応答の事実整合性を検証することに焦点を当てている。
詳細な対話事実検証のためのベンチマークであるFinDialFactを導入する。
論文 参考訳(メタデータ) (2025-08-07T18:51:03Z) - Improving Factuality for Dialogue Response Generation via Graph-Based Knowledge Augmentation [8.423723358002539]
LLM(Large Language Models)は、定型的だが矛盾するテキストを生成する。
本稿では,TG-DRGによる対話応答生成とGA-DRGによる対話応答生成の2つの新しいフレームワークを提案する。
TG-DRGは、推論誘導型対話再構成、対話感覚知識選択、グラフ強調応答生成を組み合わせることで、対話応答の事実性を改善する。
論文 参考訳(メタデータ) (2025-06-14T13:17:27Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - A Cause-Effect Look at Alleviating Hallucination of Knowledge-grounded Dialogue Generation [51.53917938874146]
我々は,対話知識の相互作用を利用して,KGDの幻覚を緩和するための解決策を提案する。
本手法は,他の対話性能を損なうことなく幻覚を低減できることを示す。
論文 参考訳(メタデータ) (2024-04-04T14:45:26Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z) - Elastic Weight Removal for Faithful and Abstractive Dialogue Generation [61.40951756070646]
対話システムは、関連する文書に含まれる知識に忠実な応答を生成するべきである。
多くのモデルは、それと矛盾したり、検証不可能な情報を含んでいる代わりに幻覚応答を生成する。
本手法は,幻覚と抽出反応を同時に阻止するために拡張できることが示唆された。
論文 参考訳(メタデータ) (2023-03-30T17:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。