論文の概要: Hallucination reduction with CASAL: Contrastive Activation Steering For Amortized Learning
- arxiv url: http://arxiv.org/abs/2510.02324v1
- Date: Thu, 25 Sep 2025 20:49:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-12 15:03:05.773913
- Title: Hallucination reduction with CASAL: Contrastive Activation Steering For Amortized Learning
- Title(参考訳): CASALによるハロシン化の低減--Amortized Learningのためのコントラストアクティベーションステアリング
- Authors: Wannan Yang, Xinchi Qiu, Lei Yu, Yuchen Zhang, Oliver Aobo Yang, Narine Kokhlikyan, Nicola Cancedda, Diego Garcia-Olano,
- Abstract要約: 大きな言語モデル(LLM)は印象的な能力を示すが、しばしば幻覚を呈し、無知を認めるのではなく、自信を持って不正確な答えを提供する。
本稿では、解釈可能性とアモータイズ最適化を結合する効率的なアルゴリズムであるCASAL(Contrastive Activation Steering for Amortized Learning)を紹介する。
- 参考スコア(独自算出の注目度): 21.26608919622078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) exhibit impressive capabilities but often hallucinate, confidently providing incorrect answers instead of admitting ignorance. Prior work has shown that models encode linear representations of their own knowledge and that activation steering can reduce hallucinations. These approaches, however, require real-time monitoring and intervention during inference. We introduce Contrastive Activation Steering for Amortized Learning (CASAL), an efficient algorithm that connects interpretability with amortized optimization. CASAL directly bakes the benefits of activation steering into model's weights. Once trained, LLMs answer questions they know while abstaining from answering those they do not. CASAL's light-weight design requires training only a submodule of a single transformer layer and yet reduces hallucination by 30%-40% across multiple short-form QA benchmarks. CASAL is 30x more compute-efficient and 20x more data-efficient than strong LoRA-based baselines such as SFT and DPO, boosting its practical applicability in data scarce domains. Importantly, CASAL also generalizes effectively to out-of-distribution (OOD) domains. We showcase CASAL's flexibility in mitigating hallucinations in both text-only and vision-language models. To our knowledge, CASAL is the first steering-based training method that has been shown to be effective for both dense and Mixture-of-Experts (MoE) models. CASAL represents a promising step forward for applying interpretability-inspired method for practical deployment in production systems.
- Abstract(参考訳): 大きな言語モデル(LLM)は印象的な能力を示すが、しばしば幻覚を呈し、無知を認めるのではなく、自信を持って不正確な答えを提供する。
以前の研究は、モデルは自身の知識の線形表現を符号化し、活性化ステアリングは幻覚を減少させることを示した。
しかし、これらのアプローチは推論中にリアルタイムの監視と介入を必要とする。
本稿では、解釈可能性とアモータイズ最適化を結合する効率的なアルゴリズムであるCASAL(Contrastive Activation Steering for Amortized Learning)を紹介する。
CASALは、モデルの重みにアクティベーションステアリングの利点を直接焼き付ける。
一度訓練された後、LLMは知っている質問に答えるが、答えない質問には答えない。
CASALの軽量設計では、1つのトランスフォーマー層のサブモジュールのみをトレーニングする必要があるが、複数のショートフォームQAベンチマークで幻覚を30%-40%減少させる。
CASALは、SFTやDPOといった強力なLoRAベースのベースラインよりも30倍、データ効率が20倍高く、データ不足領域における実用性を高めている。
重要なことに、CASALはアウト・オブ・ディストリビューション(OOD)ドメインに効果的に一般化する。
テキストのみのモデルと視覚言語モデルの両方で幻覚を緩和するCASALの柔軟性を示す。
我々の知る限り、CASALは密集型と混合型(Mixture-of-Experts:MoE)モデルの両方に有効であることが示されている最初のステアリングベースのトレーニング手法である。
CASALは、実運用システムへの実践的な展開に解釈可能性に着想を得た手法を適用するための、有望な一歩である。
関連論文リスト
- Mitigating Hallucinations in Large Vision-Language Models by Self-Injecting Hallucinations [73.37711261605271]
幻覚緩和法は主に嗜好アライメントに基づいており、嗜好データ収集には外部の人間のアノテーションや補助モデルが必要である。
本稿では,外部依存を伴わない幻覚を緩和する新規で一般化可能な手法である自己注入による自律的選好アライメント(APASI)を提案する。
APASIはターゲットのLVLMを利用して、生成した応答に幻覚を自己注入し、好みのレベルが異なるペアの応答を生成する。
論文 参考訳(メタデータ) (2025-09-14T14:26:53Z) - Analyzing and Mitigating Object Hallucination: A Training Bias Perspective [108.09666587800781]
我々は,LVLMのトレーニングデータから,特定の対象を隠蔽した反ファクト画像からなる新しいベンチマークPOPEv2を提案する。
現在のLVLMはトレーニングバイアスに悩まされており、トレーニングデータを完全に活用できず、トレーニング中に見られる画像に対してより頻繁に幻覚を与えることができません。
Obliviateは,学習バイアスアンラーニングによる物体幻覚の軽減を目的とした,効率的で軽量な未学習手法である。
論文 参考訳(メタデータ) (2025-08-06T15:51:02Z) - KV Cache Steering for Controlling Frozen LLMs [80.50365534625438]
キャッシュステアリングは、言語モデルの暗黙的なステアリングのための軽量な方法である。
キャッシュステアリングを応用して、小さな言語モデルにおける連鎖推論を誘導する。
論文 参考訳(メタデータ) (2025-07-11T17:59:36Z) - DeepInsert: Early Layer Bypass for Efficient and Performant Multimodal Understanding [26.39397960987363]
本稿では,事前学習したトランスモデルに対する簡単な修正を提案する。
まず最初に言語プロンプトと結合するのではなく、マルチモーダルトークンを直接中央に挿入します。
その結果,本手法は,学習と推論の双方において計算コストを削減できることが示唆された。
論文 参考訳(メタデータ) (2025-04-27T18:56:26Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - LLM Unlearning via Neural Activation Redirection [24.157334866277534]
線形表現仮説に基づく新しいアンラーニング手法であるLUNARを提案する。
LUNARは最先端の未学習性能と制御性に優れることを示す。
論文 参考訳(メタデータ) (2025-02-11T03:23:22Z) - Iter-AHMCL: Alleviate Hallucination for Large Language Model via Iterative Model-level Contrastive Learning [16.883679810267342]
幻覚に対処するための反復モデルレベルのコントラスト学習(Iter-AHMCL)
本稿では,幻覚に対処するイテレーティブモデルレベルのコントラスト学習(Iter-AHMCL)を提案する。
論文 参考訳(メタデータ) (2024-10-16T00:15:40Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。
我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - Cascade-Aware Training of Language Models [41.07458895387081]
CAT(Cascade-Aware Training)は,LMのカスケードの全体的な品質・コストパフォーマンストレードオフを最適化する手法である。
提案手法の価値を,SuperGLUE,WMT22,FLAN 2021データセットの60以上のLMタスクで示す。
論文 参考訳(メタデータ) (2024-05-29T22:28:46Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。