論文の概要: Active Layer-Contrastive Decoding Reduces Hallucination in Large Language Model Generation
- arxiv url: http://arxiv.org/abs/2505.23657v2
- Date: Mon, 02 Jun 2025 02:11:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:30.068821
- Title: Active Layer-Contrastive Decoding Reduces Hallucination in Large Language Model Generation
- Title(参考訳): アクティブ・レイヤ・コントラシティブ・デコードによる大規模言語モデル生成における幻覚の低減
- Authors: Hongxiang Zhang, Hao Chen, Muhao Chen, Tianyi Zhang,
- Abstract要約: 近年の復号化手法は、生成時に次のトークンをどのように選択するかを精査することによって、大規模言語モデル(LLM)の事実性を向上している。
LLMは、特に長い文脈で幻覚を起こす傾向にある。
ActLCD(Active Layer-Contrastive Decoding)は,生成時にコントラスト層をいつ適用するかを積極的に決定する,新しいデコーディング戦略である。
- 参考スコア(独自算出の注目度): 33.76488859601271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent decoding methods improve the factuality of large language models (LLMs) by refining how the next token is selected during generation. These methods typically operate at the token level, leveraging internal representations to suppress superficial patterns. Nevertheless, LLMs remain prone to hallucinations, especially over longer contexts. In this paper, we propose Active Layer-Contrastive Decoding (ActLCD), a novel decoding strategy that actively decides when to apply contrasting layers during generation. By casting decoding as a sequential decision-making problem, ActLCD employs a reinforcement learning policy guided by a reward-aware classifier to optimize factuality beyond the token level. Our experiments demonstrate that ActLCD surpasses state-of-the-art methods across five benchmarks, showcasing its effectiveness in mitigating hallucinations in diverse generation scenarios.
- Abstract(参考訳): 近年の復号化手法は、生成時に次のトークンをどのように選択するかを精査することによって、大規模言語モデル(LLM)の事実性を向上している。
これらの手法は一般的にトークンレベルで動作し、内部表現を利用して表面パターンを抑圧する。
にもかかわらず、LSMは幻覚、特に長期の文脈において傾向が強い。
本稿では,新しいデコード手法であるActive Layer-Contrastive Decoding (ActLCD)を提案する。
シーケンシャルな意思決定問題としてデコーディングをキャストすることで、ActLCDは、トークンレベルを超えて事実性を最適化するために、報酬認識分類器によって導かれる強化学習ポリシーを採用する。
実験の結果、ActLCDは5つのベンチマークで最先端の手法を超越し、多様な発生シナリオにおける幻覚を緩和する効果を示した。
関連論文リスト
- Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [42.871396640891334]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。
本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。
提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-26T08:36:10Z) - Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。
ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文 参考訳(メタデータ) (2024-10-21T07:19:19Z) - Mitigating Hallucinations in Large Vision-Language Models (LVLMs) via Language-Contrastive Decoding (LCD) [13.430637580980164]
Large Vision-Language Models (LVLM) は、画像入力とテキスト入力の両方の処理を容易にし、AI機能を拡張したLarge Language Models (LLM)の拡張である。
本研究では,LVLMの出力をLarge Language Models分布の信頼性レベルに基づいて調整するLanguage Contrastive Decoding (LCD)アルゴリズムを提案する。
本手法は,複雑な後処理や再学習を必要とせず,LVLMを効果的に改善し,異なるモデルに容易に適用できる。
論文 参考訳(メタデータ) (2024-08-06T08:10:34Z) - SED: Self-Evaluation Decoding Enhances Large Language Models for Better Generation [35.10931307279044]
本稿では,モデル生成の高速化を目的とした自己評価復号法であるSEDを提案する。
推測と評価のステップをデコードプロセスに統合し、LCMがより慎重に決定できるようにします。
論文 参考訳(メタデータ) (2024-05-26T12:43:18Z) - Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models [55.45444773200529]
大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。
最近の研究は推論時の事実性を改善するための復号化技術に焦点を当てている。
論文 参考訳(メタデータ) (2024-04-14T19:45:35Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Aligned with LLM: a new multi-modal training paradigm for encoding fMRI
activity in visual cortex [4.57590454144072]
近年,事前訓練された大規模言語モデル(LLM)の人気が高まっている。
本稿では,視覚野のfMRI活性を符号化し,LLMと整合した新しいマルチモーダルトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2024-01-08T12:30:23Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。