論文の概要: Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms
- arxiv url: http://arxiv.org/abs/2505.20322v1
- Date: Fri, 23 May 2025 17:59:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.168988
- Title: Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms
- Title(参考訳): プロンプト工学を超えて:ステアリングターゲット原子によるLCMのロバスト挙動制御
- Authors: Mengru Wang, Ziwen Xu, Shengyu Mao, Shumin Deng, Zhaopeng Tu, Huajun Chen, Ningyu Zhang,
- Abstract要約: モデルにおける膨大な数のパラメータは、しばしば高度に絡み合った内部表現をもたらす。
最近の研究は、スパースオートエンコーダ(SAE)を用いて、ステアリングのための高次元空間における知識を歪めている。
本研究では,非絡み合った知識コンポーネントを分離・操作し,安全性を高める手法であるステアリングターゲット原子(STA)を提案する。
- 参考スコア(独自算出の注目度): 71.85633762642125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Precise control over language model generation is vital for ensuring both safety and reliability. Although prompt engineering and steering are commonly used to intervene in model behaviors, the vast number of parameters in models often results in highly intertwined internal representations. This interdependency can limit control precision and sometimes lead to unintended side effects. Recent research has explored the use of sparse autoencoders (SAE) to disentangle knowledge in high-dimensional spaces for steering. However, these applications have been limited to toy tasks owing to the nontrivial issue of locating atomic knowledge components. In this paper, we propose Steering Target Atoms (STA), a novel method that isolates and manipulates disentangled knowledge components to enhance safety. Comprehensive experiments demonstrate the effectiveness of our approach. Further analysis reveals that steering exhibits superior robustness and flexibility, particularly in adversarial scenarios. We also apply the steering strategy to the large reasoning model, confirming its effectiveness in precise reasoning control.
- Abstract(参考訳): 言語モデル生成の正確な制御は、安全性と信頼性の両方を保証するために不可欠である。
迅速な工学と操舵はモデル行動に介入するために一般的に使用されるが、モデル内の膨大な数のパラメータは、しばしば高度に絡み合った内部表現をもたらす。
この相互依存は制御精度を制限し、時には意図しない副作用を引き起こすことがある。
近年の研究では、スパースオートエンコーダ(SAE)を用いて、ステアリングのための高次元空間における知識を歪めている。
しかし、これらの応用は、原子知識コンポーネントを探索する非自明な問題のために、おもちゃのタスクに限られている。
本稿では,不整合知識成分を分離・操作し,安全性を高める新手法であるステアリングターゲット原子(STA)を提案する。
総合的な実験は、我々のアプローチの有効性を実証する。
さらなる分析により、ステアリングは特に敵のシナリオにおいて、優れた堅牢性と柔軟性を示すことが明らかになった。
また,大きな推論モデルにステアリング戦略を適用し,精度の高い推論制御の有効性を確認した。
関連論文リスト
- Control-ITRA: Controlling the Behavior of a Driving Model [14.31198056147624]
エージェントの動作に影響を与える制御ITRAと呼ばれる手法を,ウェイポイントの割り当てと目標速度の変調によって導入する。
本手法は, 可制御性, 無屈折性トラジェクトリを生成できると同時に, 視界と見えない位置の両方でリアリズムを保ち得ることを示す。
論文 参考訳(メタデータ) (2025-01-17T03:35:11Z) - Enhancing Multiple Dimensions of Trustworthiness in LLMs via Sparse Activation Control [44.326363467045496]
大規模言語モデル(LLM)は、ヒューマンフィードバック(RLHF)からの強化学習において重要な研究領域となっている。
表現工学は、新しい、トレーニングなしのアプローチを提供する。
この手法は意味的特徴を利用してLLMの中間隠れ状態の表現を制御する。
正直さや安全性などの様々な意味内容を特異な意味的特徴に符号化することは困難である。
論文 参考訳(メタデータ) (2024-11-04T08:36:03Z) - Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations [76.19419888353586]
大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。
我々は,様々な害のラベルを提供するコンパクトで容易に構築できる分類モデルである,検出器のライブラリを作成し,展開する取り組みについて述べる。
論文 参考訳(メタデータ) (2024-03-09T21:07:16Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Learning Exactly Linearizable Deep Dynamics Models [0.06554326244334867]
本稿では, 安定度, 信頼性, 信頼性を確保するために, 様々な制御理論を容易に適用可能な, 線形化可能な動的モデルの学習法を提案する。
提案手法は, 自動車エンジンのリアルタイム制御に応用され, 予測性能と制約下での安定制御が良好であることを示す。
論文 参考訳(メタデータ) (2023-11-30T05:40:55Z) - Constrained Reinforcement Learning for Robotics via Scenario-Based
Programming [64.07167316957533]
DRLをベースとしたエージェントの性能を最適化し,その動作を保証することが重要である。
本稿では,ドメイン知識を制約付きDRLトレーニングループに組み込む新しい手法を提案する。
我々の実験は、専門家の知識を活用するために我々のアプローチを用いることで、エージェントの安全性と性能が劇的に向上することを示した。
論文 参考訳(メタデータ) (2022-06-20T07:19:38Z) - Scalable Synthesis of Verified Controllers in Deep Reinforcement
Learning [0.0]
高品質の安全シールドを合成できる自動検証パイプラインを提案します。
私たちの重要な洞察は、事前に計算された安全シールドを使用して神経コントローラのトレーニングを制限し、神経コントローラから安全検証を分離することを含みます。
実測的な高次元深部RLベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-04-20T19:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。