論文の概要: One-shot Optimized Steering Vectors Mediate Safety-relevant Behaviors in LLMs
- arxiv url: http://arxiv.org/abs/2502.18862v2
- Date: Tue, 12 Aug 2025 23:58:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 16:17:42.262458
- Title: One-shot Optimized Steering Vectors Mediate Safety-relevant Behaviors in LLMs
- Title(参考訳): LLMの安全関連挙動を媒介するワンショット最適化ステアリングベクトル
- Authors: Jacob Dunefsky, Arman Cohan,
- Abstract要約: 本稿では,1つのトレーニング例に基づいて,勾配降下によるステアリングベクトルの最適化を提案する。
その結果,複数モデルにおける安全関連挙動を効果的に処理できることが判明した。
の作業を拡張し、脆弱なコードを書くためにモデルに最適化されたSVがモデルに有害な応答をもたらすことを示す。
- 参考スコア(独自算出の注目度): 21.2431937128876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Steering vectors (SVs) have emerged as a promising approach for interpreting and controlling LLMs, but current methods typically require large contrastive datasets that are often impractical to construct and may capture spurious correlations. We propose directly optimizing SVs through gradient descent on a single training example, and systematically investigate how these SVs generalize. We consider several SV optimization techniques and find that the resulting SVs effectively mediate safety-relevant behaviors in multiple models. Indeed, in experiments on an alignment-faking model, we are able to optimize one-shot SVs that induce harmful behavior on benign examples and whose negations suppress harmful behavior on malign examples. And in experiments on refusal suppression, we demonstrate that one-shot optimized SVs can transfer across inputs, yielding a Harmbench attack success rate of 96.9%. Furthermore, we extend work on "emergent misalignment" and show that SVs optimized to induce a model to write vulnerable code cause the model to respond harmfully on unrelated open-ended prompts. Finally, we use one-shot SV optimization to investigate how an instruction-tuned LLM recovers from outputting false information, and find that this ability is independent of the model's explicit verbalization that the information was false. Overall, our findings suggest that optimizing SVs on a single example can mediate a wide array of misaligned behaviors in LLMs. Code can be found at https://github.com/jacobdunefsky/one-shot-steering-repro and https://github.com/jacobdunefsky/one-shot-steering-misalignment.
- Abstract(参考訳): ステアリングベクトル (SV) は LLM の解釈と制御において有望なアプローチとして現れてきたが、現在の手法では、しばしば構築に非現実的であり、急激な相関を捉えうる大きなコントラストデータセットを必要とする。
本稿では,1つのトレーニング例に基づいて,勾配降下によるSVの直接最適化を提案し,これらのSVの一般化方法について系統的に検討する。
我々は,複数のSV最適化手法を検討し,結果のSVが複数のモデルにおける安全関連挙動を効果的に媒介することを見出した。
実際、アライメントフェイキングモデルの実験では、良性例に対する有害な振る舞いを誘発し、良性例に対する有害な振る舞いを抑制するワンショットSVを最適化することができる。
また、拒絶抑制実験では、ワンショット最適化されたSVが入力間で転送可能であることを示し、Harmbench攻撃の成功率は96.9%である。
さらに、「創発的ミスアライメント(emergent misalignment)」の取り組みを拡張し、脆弱なコードを記述するモデルに最適化されたSVが、無関係なオープンなプロンプトに対して有害に応答する原因となることを示す。
最後に,命令調整されたLLMが偽情報の出力からどのように回復するかをワンショットSV最適化を用いて検討し,その情報が偽であるというモデルの明示的な言語化とは無関係であることを示す。
以上の結果から,単一例におけるSVの最適化は,LLMにおける多種多様な不整合挙動を媒介する可能性が示唆された。
コードはhttps://github.com/jacobdunefsky/one-shot-steering-reproとhttps://github.com/jacobdunefsky/one-shot-steering-misalignmentで見ることができる。
関連論文リスト
- GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - SAND: Boosting LLM Agents with Self-Taught Action Deliberation [53.732649189709285]
大規模言語モデル(LLM)エージェントは、通常、ReActスタイルの専門家軌道の教師付き微調整や、ペアのロールアウトよりも好みの最適化で調整される。
本稿では,自己学習型アクチオN審議(SAND)フレームワークを提案する。
SANDは、初期教師付き微調整よりも平均20%改善し、また最先端のエージェントチューニングアプローチより優れている。
論文 参考訳(メタデータ) (2025-07-10T05:38:15Z) - ExpertSteer: Intervening in LLMs through Expert Knowledge [71.12193680015622]
アクティベーションステアリングは、大規模言語モデルの生成プロセスを制御するための有望な方法を提供する。
本稿では、任意の専門的モデルを用いてステアリングベクトルを生成する新しいアプローチであるExpertSteerを提案する。
3つのLSMを4つの異なる領域にわたる15の人気のあるベンチマークで包括的な実験を行う。
論文 参考訳(メタデータ) (2025-05-18T08:55:46Z) - Steering Risk Preferences in Large Language Models by Aligning Behavioral and Neural Representations [4.029252551781513]
ステアリングベクトルを明らかにするための原理的アプローチを提案する。
我々は,大規模言語モデルから潜在リスクの選好を抽出することに注力する。
得られた操舵ベクトルが目標動作に合わせてLLM出力を正常かつ確実に変調することを示す。
論文 参考訳(メタデータ) (2025-05-16T18:23:10Z) - Patterns and Mechanisms of Contrastive Activation Engineering [0.374490703387131]
CAEは、フレキシブルでタスク固有の振る舞いチューニングの新しいパラダイムを導入する可能性がある。
本研究では,配当・配当・配当設定におけるCAEの性能を分析し,欠点を評価し,その効果的な展開のための包括的ガイドラインの開発に着手する。
論文 参考訳(メタデータ) (2025-05-06T05:15:12Z) - Improving Reasoning Performance in Large Language Models via Representation Engineering [2.0099933815960256]
大規模言語モデル(LLM)の表現工学的アプローチを提案する。
モデルアクティベーションは、推論タスクを処理する際にLLMの残ストリームから読み込まれる。
LLMは、ある程度に、アクティベーションを調節することで、認識された推論能力を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-04-28T04:58:43Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Shifting Perspectives: Steering Vector Ensembles for Robust Bias Mitigation in LLMs [8.91107152198979]
本稿では,大規模言語モデル(LLM)において,前方通過におけるモデルアクティベーションの修正にステアリングベクトルを適用することにより,バイアス軽減手法を提案する。
ベイズ最適化を用いて、9つのバイアス軸にまたがる効果的な対照的なペアデータセットを体系的に同定する。
これらの有望な結果に基づいて、複数の個別に最適化されたステアリングベクトルを平均化する手法であるステアリングベクトルアンサンブル(SVE)を導入し、それぞれが年齢、人種、性別などの特定のバイアス軸をターゲットにしている。
論文 参考訳(メタデータ) (2025-03-07T12:25:29Z) - Debias your Large Multi-Modal Model at Test-Time via Non-Contrastive Visual Attribute Steering [7.471995248769638]
大規模マルチモーダルモデル(LMM)のための学習自由脱バイアスフレームワークを提案する。
我々のフレームワークは、保護された属性に対する参照を減らすステアリングベクトルを構築することによって、テキスト生成中のモデルの表現に介入する。
実験の結果,これらの介入は,感情や流布を維持しつつ,保護属性に関連するテキストを生成するLMMの妥当性を効果的に低下させることが示唆された。
論文 参考訳(メタデータ) (2024-11-15T20:06:09Z) - Refusal in LLMs is an Affine Function [1.722461331472526]
本稿では,アフィン概念編集 (ACE) を言語モデルの振る舞いを制御するためのアプローチとして提案する。
ACEはアフィン部分空間の投影とアクティベーションの追加を組み合わせて、モデルの拒絶反応を確実に制御する。
実験の結果、ACEは既存の手法よりもモデル動作をより正確に制御できることがわかった。
論文 参考訳(メタデータ) (2024-11-13T20:12:55Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization [34.05163996072159]
人選好データのアクティベーションから「ステアリングベクトル」を抽出する。
この研究は、双方向の選好最適化によってより効果的なステアリングベクトルを生み出すことができる革新的なアプローチを提案する。
提案手法は, ステアリングベクトルが人間の嗜好データペアの生成確率に直接影響を与えるように設計されている。
論文 参考訳(メタデータ) (2024-05-28T05:10:40Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Relational Reasoning via Set Transformers: Provable Efficiency and
Applications to MARL [154.13105285663656]
置換不変エージェントフレームワークを用いたMARL(Multi-A gent R einforcement Learning)は,実世界のアプリケーションにおいて大きな実証的成功を収めた。
残念なことに、このMARL問題の理論的理解は、多くのエージェントの呪いと、既存の著作における関係推論の限定的な探索によって欠落している。
モデルフリーアルゴリズムとモデルベースアルゴリズムの最適度差は各エージェント数に独立して対数的であり、多くのエージェントの呪いを和らげる。
論文 参考訳(メタデータ) (2022-09-20T16:42:59Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。