論文の概要: SteeringControl: Holistic Evaluation of Alignment Steering in LLMs
- arxiv url: http://arxiv.org/abs/2509.13450v1
- Date: Tue, 16 Sep 2025 18:36:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.612484
- Title: SteeringControl: Holistic Evaluation of Alignment Steering in LLMs
- Title(参考訳): ステアリング制御:LLMにおけるアライメントステアリングの全体的評価
- Authors: Vincent Siu, Nicholas Crispino, David Park, Nathan W. Henry, Zhun Wang, Yang Liu, Dawn Song, Chenguang Wang,
- Abstract要約: 我々は、コアアライメントの目的に対して表現ステアリング手法を評価するベンチマークであるSteeringControlを紹介する。
ステアリングの有効性と行動の絡み合いを評価するため,安全関連一次行動と二次行動のデータセットを収集した。
Qwen-2.5-7B と Llama-3.1-8B の試験結果から, 操舵性能は, 操舵法, モデル, 目標行動の特定の組み合わせに依存することがわかった。
- 参考スコア(独自算出の注目度): 42.189660766537536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SteeringControl, a benchmark for evaluating representation steering methods across core alignment objectives--bias, harmful generation, and hallucination--and their effects on secondary behaviors such as sycophancy and commonsense morality. While prior alignment work often highlights truthfulness or reasoning ability to demonstrate the side effects of representation steering, we find there are many unexplored tradeoffs not yet understood in a systematic way. We collect a dataset of safety-relevant primary and secondary behaviors to evaluate steering effectiveness and behavioral entanglement centered around five popular steering methods. To enable this, we craft a modular steering framework based on unique components that serve as the building blocks of many existing methods. Our results on Qwen-2.5-7B and Llama-3.1-8B find that strong steering performance is dependent on the specific combination of steering method, model, and targeted behavior, and that severe concept entanglement can result from poor combinations of these three as well. We release our code here: https://github.com/wang-research-lab/SteeringControl.git.
- Abstract(参考訳): 本稿では,コアアライメントの目的 – バイアス,有害生成,幻覚 – にまたがる表現ステアリング手法を評価するためのベンチマークであるSteeringControlについて紹介する。
事前のアライメント作業では、表現ステアリングの副作用を示す真理性や推論能力が強調されることが多いが、体系的な方法ではまだ理解されていない未調査のトレードオフが数多く存在する。
安全関連行動と二次行動のデータセットを収集し, ステアリングの有効性と5つの一般的なステアリング法を中心とした行動の絡み合いを評価する。
これを実現するために、多くの既存メソッドのビルディングブロックとして機能するユニークなコンポーネントに基づいたモジュラー・ステアリング・フレームワークを構築します。
Qwen-2.5-7B と Llama-3.1-8B の研究では, 操舵法, モデル, 目標動作の特定の組み合わせに強い操舵性能が依存しており, 厳密な概念の絡み合いもこれら3つの組み合わせの貧弱な組み合わせから生じることが判明した。
コードについては、https://github.com/wang-research-lab/SteeringControl.git.comで公開しています。
関連論文リスト
- Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms [71.85633762642125]
モデルにおける膨大な数のパラメータは、しばしば高度に絡み合った内部表現をもたらす。
最近の研究は、スパースオートエンコーダ(SAE)を用いて、ステアリングのための高次元空間における知識を歪めている。
本研究では,非絡み合った知識コンポーネントを分離・操作し,安全性を高める手法であるステアリングターゲット原子(STA)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:59:18Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender [73.09848497762667]
本稿では,入力特性に基づいてモデル動作を調整するアダプティブアクティベーションステアリング手法であるAdaSteerを提案する。
AdaSteer は Rejection Direction (RD) と Harmfulness Direction (HD) の両方に沿って入力表現を操る
本研究は,LLMにおけるリアルタイム・フレキシブル安全対策のための解釈可能なモデル内装の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-04-13T07:39:17Z) - Analyzing the Generalization and Reliability of Steering Vectors [8.253773195379166]
ステアリングベクトルは分布内および分布外の両方にかなりの制限があることを示す。
分散において、ステアビリティは異なる入力間で高度に変動する。
アウト・オブ・ディストリビューション(out-of-distribution)、ステアリングベクトル(steering vector)はよく一般化されるが、いくつかの概念はプロンプトの合理的な変化に対して脆弱である。
論文 参考訳(メタデータ) (2024-07-17T08:32:03Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。