論文の概要: Energy-Driven Steering: Reducing False Refusals in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.08646v1
- Date: Thu, 09 Oct 2025 06:01:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.297004
- Title: Energy-Driven Steering: Reducing False Refusals in Large Language Models
- Title(参考訳): エネルギー駆動型ステアリング:大規模言語モデルにおける偽りの低減
- Authors: Eric Hanchen Jiang, Weixuan Ou, Run Liu, Shengyuan Pang, Guancheng Wan, Ranjie Duan, Wei Dong, Kai-Wei Chang, XiaoFeng Wang, Ying Nian Wu, Xinfeng Li,
- Abstract要約: エネルギー駆動ステアリング(EDS、Energy-Driven Steering)は、動的で推論時間の介入によってこの問題を解決するために設計された、新しい、微調整自由なフレームワークである。
我々は、望ましくない(偽の拒絶または脱獄)状態に高エネルギーを割り当て、望ましい(好ましくない反応または安全な拒絶)状態に低エネルギーを割り当てるために、軽量な外部エネルギーベースモデル(EBM)を訓練した。
エネルギー関数の勾配を利用してLLMの隠れた状態を低エネルギー領域に動的に操る。
- 参考スコア(独自算出の注目度): 80.09252175869858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety alignment of large language models (LLMs) faces a key challenge: current alignment techniques often only focus on improving safety against harmful prompts, causing LLMs to become over-cautious and refuse to respond to benign prompts. Therefore, a key objective of safe alignment is to enhance safety while simultaneously reducing false refusals. In this paper, we introduce Energy-Driven Steering (EDS), a novel, fine-tuning free framework designed to resolve this challenge through dynamic, inference-time intervention. We trained a lightweight, external Energy-Based Model (EBM) to assign high energy to undesirable (false refusal or jailbreak) states and low energy to desirable (helpful response or safe reject) ones. During inference, EBM maps the LLM's internal activations to an "energy landscape". We use the gradient of the energy function to dynamically steer the LLM's hidden states to low energy regions, correcting the model to generate a desirable response in real-time without modifying its weights. This method decouples behavioral control from the model's core knowledge, offering a flexible solution with minimal computational overhead. Extensive experiments across a wide range of models show our method successfully achieves this objective: it substantially lowers false refusal rates. For example, raising compliance on the ORB-H benchmark from 57.3% to 82.6% while maintaining the baseline safety performance. Our work presents an effective paradigm for building LLMs that achieve both low false refusal rates and high safety.
- Abstract(参考訳): 現在のアライメント技術は、有害なプロンプトに対する安全性の改善にのみ焦点を合わせ、LLMは過度に注意し、良心的なプロンプトへの応答を拒否する。
したがって、安全アライメントの重要な目的は、偽りの拒絶を同時に軽減しながら安全性を高めることである。
本稿では,エネルギー駆動ステアリング(EDS, Energy-Driven Steering)について紹介する。
我々は、望ましくない(偽の拒絶または脱獄)状態に高エネルギーを割り当て、望ましい(好ましくない反応または安全な拒絶)状態に低エネルギーを割り当てるために、軽量な外部エネルギーベースモデル(EBM)を訓練した。
推論中、ESMはLSMの内部活性化を「エネルギー的な景観」にマッピングする。
エネルギー関数の勾配を利用してLLMの隠れた状態を低エネルギー領域に動的に操る。
この方法は、モデルのコア知識から行動制御を分離し、最小の計算オーバーヘッドを持つ柔軟なソリューションを提供する。
幅広いモデルにわたる大規模な実験により,提案手法はこの目的を達成できた。
例えば、ORB-Hベンチマークのコンプライアンスを57.3%から82.6%に引き上げ、基準安全性能を維持した。
本研究は,低誤認率と高安全性を両立するLCMの構築に有効なパラダイムを提案する。
関連論文リスト
- LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning [61.594212398272184]
Low-Rank Extrapolation (LoX)は、良質で悪意のある微調整攻撃に対する堅牢性を改善する。
LoXは攻撃成功率を11%から54%に下げる。
論文 参考訳(メタデータ) (2025-06-18T16:30:02Z) - FLAME: Flexible LLM-Assisted Moderation Engine [2.966082563853265]
フレキシブル LLM-Assisted Moderation Engine (FLAME) について紹介する。
ユーザクエリを分析する従来のサーキットブレーキング方法とは異なり、FLAMEはモデル応答を評価する。
実験の結果,FLAMEは現在のモデレーションシステムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-02-13T11:05:55Z) - Jailbreak Antidote: Runtime Safety-Utility Balance via Sparse Representation Adjustment in Large Language Models [8.024771725860127]
ジェイルブレイク攻撃は、大きな言語モデルを操作して有害なコンテンツを生成する。
Jailbreak Antidoteは、モデルの内部状態のスパースサブセットを操作することで、安全優先のリアルタイム調整を可能にする。
解析の結果,LLMの安全性関連情報はわずかに分散していることがわかった。
論文 参考訳(メタデータ) (2024-10-03T08:34:17Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。