論文の概要: Depth-Wise Activation Steering for Honest Language Models
- arxiv url: http://arxiv.org/abs/2512.07667v1
- Date: Mon, 08 Dec 2025 16:03:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.956115
- Title: Depth-Wise Activation Steering for Honest Language Models
- Title(参考訳): 言語モデルのための奥行き活性化ステアリング
- Authors: Gracjan Góral, Marysia Winkels, Steven Basart,
- Abstract要約: 本稿では,ガウススケジュールを用いて,ネットワーク奥行きのステアリング強度を重み付けする,トレーニング不要なアクティベーションステアリング手法を提案する。
我々は,LLaMA,Qwen,Mistralの各家系にまたがる7つのモデルを評価し,ガウス的スケジューリングが非ステアリングおよび単層ベースラインよりも誠実性を向上させることを発見した。
- 参考スコア(独自算出の注目度): 4.299414551764217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models sometimes assert falsehoods despite internally representing the correct answer, failures of honesty rather than accuracy, which undermines auditability and safety. Existing approaches largely optimize factual correctness or depend on retraining and brittle single-layer edits, offering limited leverage over truthful reporting. We present a training-free activation steering method that weights steering strength across network depth using a Gaussian schedule. On the MASK benchmark, which separates honesty from knowledge, we evaluate seven models spanning the LLaMA, Qwen, and Mistral families and find that Gaussian scheduling improves honesty over no-steering and single-layer baselines in six of seven models. Equal-budget ablations on LLaMA-3.1-8B-Instruct and Qwen-2.5-7B-Instruct show the Gaussian schedule outperforms random, uniform, and box-filter depth allocations, indicating that how intervention is distributed across depth materially affects outcomes beyond total strength. The method is simple, model-agnostic, requires no finetuning, and provides a low-cost control knob for eliciting truthful reporting from models' existing capabilities.
- Abstract(参考訳): 大規模な言語モデルは、内部的には正しい答え、正確さよりも正直さの失敗を表現しているにもかかわらず、しばしば偽造を主張し、監査性と安全性を損なう。
既存のアプローチは主に事実の正しさを最適化するか、トレーニングと脆い単一層編集に依存し、真実の報告よりも限られたレバレッジを提供する。
本稿では,ガウススケジュールを用いて,ネットワーク奥行きのステアリング強度を重み付けする,トレーニング不要なアクティベーションステアリング手法を提案する。
知識から誠実さを区別するMASKベンチマークでは、LLaMA、Qwen、Mistralの各ファミリーにまたがる7つのモデルを評価し、ガウス的スケジューリングが7つのモデルのうち6つのモデルのうち6つの非ステアリングと単層ベースラインよりも誠実さを向上させることを発見した。
LLaMA-3.1-8B-インストラクタとQwen-2.5-7B-インストラクタの等予算は、ガウスのスケジュールがランダム、均一、およびボックスフィルタの深さ割り当てよりも優れており、どのように介入が深さにわたって分散されるかが全強度を超える結果に重大な影響を与えることを示している。
この方法は単純でモデルに依存しず、微調整を必要とせず、モデルが持つ既存の能力から真に報告するための低コストな制御ノブを提供する。
関連論文リスト
- Enhancing the Outcome Reward-based RL Training of MLLMs with Self-Consistency Sampling [90.87033586963828]
マルチモーダル大言語モデル(MLLM)のステップ・バイ・ステップ推論を洗練させる手段としては,アウトカム・リワード強化学習(RL)が一般的であり,ますます重要になっている。
この問題を修正するために,自己整合サンプリング(SCS)を提案する。
Qwen2.5-VL-7B-インストラクトに基づいて、SCSは、無視できる余分な計算を伴う6つのマルチモーダルベンチマークにおいて、最大7.7ポイントの精度を向上する。
論文 参考訳(メタデータ) (2025-11-13T18:59:57Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。
アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文 参考訳(メタデータ) (2025-10-28T11:01:10Z) - AWM: Accurate Weight-Matrix Fingerprint for Large Language Models [44.93519442566325]
重み行列に基づくトレーニング不要な指紋認証手法を提案する。
線形アサインメント問題(LAP)と不偏中心カーネルアライメント(CKA)の類似性を利用してパラメータ操作の効果を中和する。
本手法は, 上記の6項目すべてに対して, 偽陽性のほぼゼロのリスクを示しながら, 例外的な堅牢性を示す。
論文 参考訳(メタデータ) (2025-10-08T07:51:11Z) - Boosting LLM Reasoning via Spontaneous Self-Correction [43.4980625253775]
数学推論を改善するためのアプローチの1つは自己補正である。
既存の自己補正アプローチは、修正を独立したポストジェネレーションとして扱う。
本研究では,LLMが単一推論パスでインターリーブされた解と検証を生成できる自己補正手法であるSPOCを提案する。
論文 参考訳(メタデータ) (2025-06-07T21:23:00Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Fine-Tuning Pre-trained Language Model with Weak Supervision: A
Contrastive-Regularized Self-Training Approach [46.76317056976196]
微調整事前訓練言語モデル(LM)は多くの自然言語処理(NLP)タスクで大きな成功を収めた。
ラベル付きデータなしで、弱い監督のみを用いて、微調整済みのLMの問題について検討する。
我々は、微調整型LMを低監督で実現するために、対照的な自己学習フレームワークであるCOSINEを開発した。
論文 参考訳(メタデータ) (2020-10-15T15:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。