論文の概要: SteeringSafety: A Systematic Safety Evaluation Framework of Representation Steering in LLMs
- arxiv url: http://arxiv.org/abs/2509.13450v2
- Date: Thu, 16 Oct 2025 16:44:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 16:37:10.490836
- Title: SteeringSafety: A Systematic Safety Evaluation Framework of Representation Steering in LLMs
- Title(参考訳): ステアリングセーフティ:LLMにおける表現ステアリングの系統的安全性評価フレームワーク
- Authors: Vincent Siu, Nicholas Crispino, David Park, Nathan W. Henry, Zhun Wang, Yang Liu, Dawn Song, Chenguang Wang,
- Abstract要約: 我々は17のデータセットにまたがる7つの安全性の観点から、表現ステアリング手法を評価するための体系的なフレームワークであるSteeringSafetyを紹介した。
当社のフレームワークは,DIM,ACE,CAA,PCA,LATの統一的な実装を実現するとともに,最近のコンディショナルステアリングなどの拡張を施した,最先端のステアリング手法のためのモジュール化されたビルディングブロックを提供する。
- 参考スコア(独自算出の注目度): 42.189660766537536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SteeringSafety, a systematic framework for evaluating representation steering methods across seven safety perspectives spanning 17 datasets. While prior work highlights general capabilities of representation steering, we systematically explore safety perspectives including bias, harmfulness, hallucination, social behaviors, reasoning, epistemic integrity, and normative judgment. Our framework provides modularized building blocks for state-of-the-art steering methods, enabling unified implementation of DIM, ACE, CAA, PCA, and LAT with recent enhancements like conditional steering. Results on Gemma-2-2B, Llama-3.1-8B, and Qwen-2.5-7B reveal that strong steering performance depends critically on pairing of method, model, and specific perspective. DIM shows consistent effectiveness, but all methods exhibit substantial entanglement: social behaviors show highest vulnerability (reaching degradation as high as 76%), jailbreaking often compromises normative judgment, and hallucination steering unpredictably shifts political views. Our findings underscore the critical need for holistic safety evaluations.
- Abstract(参考訳): 我々は17のデータセットにまたがる7つの安全性の観点から、表現ステアリング手法を評価するための体系的なフレームワークであるSteeringSafetyを紹介した。
先行研究は、表現的ステアリングの一般的な能力を強調する一方で、偏見、有害性、幻覚、社会的行動、推論、認識的整合性、規範的判断などの安全性の観点を体系的に探求する。
当社のフレームワークは,DIM,ACE,CAA,PCA,LATの統一的な実装を実現するとともに,最近のコンディショナルステアリングなどの拡張を施した,最先端のステアリング手法のためのモジュール化されたビルディングブロックを提供する。
Gemma-2-2B、Llama-3.1-8B、Qwen-2.5-7Bの結果、強力な操舵性能は、方法、モデル、および特定の視点のペアリングに大きく依存していることが判明した。
DIMは一貫性のある有効性を示すが、すべての手法は重大な絡み合いを示す: 社会的行動は最も脆弱(最大で76%の低下)を示し、ジェイルブレイクは規範的判断を妥協し、幻覚の操りは政治的見解を予測不可能にシフトさせる。
本研究は, 総合的安全性評価の必要性を浮き彫りにした。
関連論文リスト
- Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms [71.85633762642125]
モデルにおける膨大な数のパラメータは、しばしば高度に絡み合った内部表現をもたらす。
最近の研究は、スパースオートエンコーダ(SAE)を用いて、ステアリングのための高次元空間における知識を歪めている。
本研究では,非絡み合った知識コンポーネントを分離・操作し,安全性を高める手法であるステアリングターゲット原子(STA)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:59:18Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender [73.09848497762667]
本稿では,入力特性に基づいてモデル動作を調整するアダプティブアクティベーションステアリング手法であるAdaSteerを提案する。
AdaSteer は Rejection Direction (RD) と Harmfulness Direction (HD) の両方に沿って入力表現を操る
本研究は,LLMにおけるリアルタイム・フレキシブル安全対策のための解釈可能なモデル内装の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-04-13T07:39:17Z) - Analyzing the Generalization and Reliability of Steering Vectors [8.253773195379166]
ステアリングベクトルは分布内および分布外の両方にかなりの制限があることを示す。
分散において、ステアビリティは異なる入力間で高度に変動する。
アウト・オブ・ディストリビューション(out-of-distribution)、ステアリングベクトル(steering vector)はよく一般化されるが、いくつかの概念はプロンプトの合理的な変化に対して脆弱である。
論文 参考訳(メタデータ) (2024-07-17T08:32:03Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。