論文の概要: Delta - Contrastive Decoding Mitigates Text Hallucinations in Large Language Models
- arxiv url: http://arxiv.org/abs/2502.05825v1
- Date: Sun, 09 Feb 2025 09:16:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:35:32.077251
- Title: Delta - Contrastive Decoding Mitigates Text Hallucinations in Large Language Models
- Title(参考訳): Delta-Contrastive Decodingは大規模言語モデルにおけるテキスト幻覚を軽減する
- Authors: Cheng Peng Huang, Hao-Yuan Chen,
- Abstract要約: 大型言語モデル(LLM)は幻覚を起こす傾向があり、事実的に誤りまたは偽造されたコンテンツを生成する。
モデルの再訓練や追加データを必要とせずに幻覚を減少させる推定時間手法であるDeltaを提案する。
- 参考スコア(独自算出の注目度): 1.0742675209112622
- License:
- Abstract: Large language models (LLMs) demonstrate strong capabilities in natural language processing but remain prone to hallucinations, generating factually incorrect or fabricated content. This issue undermines their reliability, particularly in high-stakes domains such as healthcare and legal advisory. To address this challenge, we propose Delta, an inference-time method that reduces hallucinations without requiring model retraining or additional data. Delta works by randomly masking parts of the input prompt and contrasting the output distributions for the original and masked inputs, effectively suppressing hallucinations through inference-only computations. We evaluate Delta on context-rich question-answering benchmarks, achieving absolute improvements of approximately 3 and 6 percentage points on SQuAD v1.1 and v2, respectively, and 7 and 2 percentage points on TriviaQA and Natural Questions under-sampling decoding. Delta also improves the no-answer exact match score on SQuAD v2 by over ten percentage points, demonstrating its effectiveness in mitigating hallucinations arising from contextual ambiguity. These results highlight Delta as a computationally efficient and scalable approach for improving the reliability of LLMs in real-world applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理において強力な能力を示すが、幻覚を起こしやすい傾向にあり、事実的に誤りまたは偽造されたコンテンツを生成する。
この問題は、特に医療や法務顧問のような高度な領域において、信頼性を損なう。
この課題に対処するために、モデルの再訓練や追加データを必要としない幻覚を減らす推論時手法Deltaを提案する。
デルタは入力プロンプトの一部をランダムにマスキングし、元の入力とマスキングされた入力の出力分布を対比することにより、推論のみの計算による幻覚を効果的に抑制する。
SQuAD v1.1 と v2 でそれぞれ 3 と 6 の絶対的改善を達成し,TriviaQA と Natural Questions で 7 と 2 の絶対的改善を達成した。
デルタはまた、SQuAD v2における答えなしの正確な一致スコアを10ポイント以上改善し、文脈の曖昧さから生じる幻覚を緩和する効果を示した。
これらの結果は、現実のアプリケーションにおけるLCMの信頼性を向上させるための計算効率が高くスケーラブルなアプローチとしてDeltaを強調している。
関連論文リスト
- Detecting LLM Fact-conflicting Hallucinations Enhanced by Temporal-logic-based Reasoning [10.606613497282398]
Drowzeeは、大規模言語モデルのためのエンドツーエンドのメタモルフィックテストフレームワークである。
時相論理を用いて、大規模な言語モデルにおけるファクト・コンフリクト・幻覚(FCH)を識別する。
その結果、ドロージーは24.7%から59.8%までの非時間関連幻覚率と16.7%から39.2%の時間関連幻覚率を効果的に同定した。
論文 参考訳(メタデータ) (2025-02-19T04:21:46Z) - Cost-Effective Hallucination Detection for LLMs [11.58436181159839]
大規模な言語モデル(LLM)は幻覚を起こす傾向があり、入力、外部事実、あるいは内部的矛盾に反する信頼できない出力を生成する。
幻覚検出のためのパイプラインでは,まず,生成した回答が幻覚である可能性を示す信頼スコアを生成し,第2に,入力の属性と候補応答に基づいてスコア条件を調整し,第3に,スコアを閾値付けして検出を行う。
論文 参考訳(メタデータ) (2024-07-31T08:19:06Z) - Pelican: Correcting Hallucination in Vision-LLMs via Claim Decomposition and Program of Thought Verification [13.081342795985003]
Pelicanは、クレーム検証を通じて幻覚を検出し緩和するために設計されたフレームワークである。
実験の結果,MMHal-Benchの幻覚緩和法と比較して,幻覚率8%~32%低下し,27%低下した。
論文 参考訳(メタデータ) (2024-07-02T15:17:44Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Drowzee: Metamorphic Testing for Fact-Conflicting Hallucination Detection in Large Language Models [11.138489774712163]
我々は、FCH(Fact-Conflicting Hallucinations)の検出のためのメタモルフィックテストを強化するために、論理プログラミングを活用する革新的なアプローチを提案する。
テストケースを生成し,9つのドメインにまたがる6つの異なる大言語モデルに対して幻覚を検知し,24.7%から59.8%の比率を示した。
論文 参考訳(メタデータ) (2024-05-01T17:24:42Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Towards Improving Faithfulness in Abstractive Summarization [37.19777407790153]
本稿では,抽象的な要約における忠実度を改善するために,FES(Fithfulness Enhanced Summarization Model)を提案する。
我々のモデルはCNN/DMとXSumの実験において強いベースラインを上回ります。
論文 参考訳(メタデータ) (2022-10-04T19:52:09Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。