論文の概要: Investigating Generalization of One-shot LLM Steering Vectors
- arxiv url: http://arxiv.org/abs/2502.18862v1
- Date: Wed, 26 Feb 2025 06:13:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:58:57.421759
- Title: Investigating Generalization of One-shot LLM Steering Vectors
- Title(参考訳): ワンショットLDMステアリングベクトルの一般化の検討
- Authors: Jacob Dunefsky, Arman Cohan,
- Abstract要約: 本稿では,1つのトレーニング例に基づいて,勾配降下によるステアリングベクトルの最適化を提案する。
得られたベクトルは、複数のモデルにおける安全関連挙動を効果的に媒介する。
- 参考スコア(独自算出の注目度): 21.2431937128876
- License:
- Abstract: Steering vectors have emerged as a promising approach for interpreting and controlling LLMs, but current methods typically require large contrastive datasets that are often impractical to construct and may capture spurious correlations. We propose directly optimizing steering vectors through gradient descent on a single training example, and systematically investigate how these vectors generalize. We consider several steering optimization techniques, including multiple novel ones, and find that the resulting vectors effectively mediate safety-relevant behaviors in multiple models. Indeed, in experiments on an alignment-faking model, we are able to optimize one-shot steering vectors that induce harmful behavior on benign examples and whose negations suppress harmful behavior on malign examples. And in experiments on refusal suppression, we demonstrate that one-shot optimized steering vectors can transfer across inputs, yielding a Harmbench attack success rate of 96.9%. Furthermore, to quantitatively assess steering effectiveness in instruction-tuned models, we develop a novel evaluation framework using sequence probabilities from the corresponding base model. With this framework, we analyze how steering vectors modulate an instruction-tuned LLM's ability to recover from outputting false information, and find that this ability derives from the base model. Overall, our findings suggest that optimizing steering vectors on a single example can mediate misaligned behavior in LLMs, and provide a path toward better understanding the relationship between LLM behavior and activation space structure.
- Abstract(参考訳): ステアリングベクトルはLLMを解釈し制御するための有望なアプローチとして現れてきたが、現在の手法では、しばしば構築に不実用であり、急激な相関を捉えうる大きなコントラストデータセットを必要とする。
本稿では,1つのトレーニング例に対して,勾配降下によるステアリングベクトルを直接最適化し,これらのベクトルがどのように一般化するかを体系的に検討する。
提案手法は,複数の新規なベクトルを含む複数のステアリング最適化手法について検討し,複数のモデルにおける安全関連挙動を効果的に媒介することを見出した。
実際、アライメントフェイキングモデルの実験では、良性例に対する有害な振る舞いを誘発し、良性例に対する有害な振る舞いを抑制するワンショットステアリングベクトルを最適化することができる。
そして、拒絶抑制実験において、1ショット最適化されたステアリングベクトルが入力間で移動可能であることを示し、Harmbench攻撃の成功率は96.9%である。
さらに,命令調整モデルにおけるステアリングの有効性を定量的に評価するために,対応するベースモデルからのシーケンス確率を用いた新しい評価フレームワークを開発した。
本フレームワークでは,命令調整されたLCMの誤り情報を出力する能力をどのように調整するかを解析し,その能力がベースモデルから導出されることを確かめる。
以上の結果から, 1つの例における操舵ベクトルの最適化は, LLMにおける不整合挙動を媒介し, LLMの挙動と活性化空間構造との関係をよりよく理解するための道筋となることが示唆された。
関連論文リスト
- Refusal in LLMs is an Affine Function [1.722461331472526]
本稿では,アフィン概念編集 (ACE) を言語モデルの振る舞いを制御するためのアプローチとして提案する。
ACEはアフィン部分空間の投影とアクティベーションの追加を組み合わせて、モデルの拒絶反応を確実に制御する。
実験の結果、ACEは既存の手法よりもモデル動作をより正確に制御できることがわかった。
論文 参考訳(メタデータ) (2024-11-13T20:12:55Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization [34.05163996072159]
人選好データのアクティベーションから「ステアリングベクトル」を抽出する。
この研究は、双方向の選好最適化によってより効果的なステアリングベクトルを生み出すことができる革新的なアプローチを提案する。
提案手法は, ステアリングベクトルが人間の嗜好データペアの生成確率に直接影響を与えるように設計されている。
論文 参考訳(メタデータ) (2024-05-28T05:10:40Z) - In-Context Learning State Vector with Inner and Momentum Optimization [23.33921300777915]
大規模言語モデル(LLM)は、わずか数例からICL(In-Context Learning)を実行する素晴らしい能力を示した。
近年の研究では、ICLが学習した関数は変換器から得られる圧縮ベクトルで表現できることが示されている。
本稿では,これらの圧縮ベクトルの包括的解析,勾配降下法で訓練されたパラメータの並列化,状態ベクトルの概念について述べる。
論文 参考訳(メタデータ) (2024-04-17T10:19:15Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Steering Llama 2 via Contrastive Activation Addition [41.54815073311959]
コントラストアクティベーション付加(Contrastive Activation Addition、CAA)は、前方通過中にアクティベーションを変更することで言語モデルを操る手法である。
CAAは、Large Language Models (LLMs)において、どのようにハイレベルな概念が表現されるかを正確に判断し、明らかにする。
論文 参考訳(メタデータ) (2023-12-09T04:40:46Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Relational Reasoning via Set Transformers: Provable Efficiency and
Applications to MARL [154.13105285663656]
置換不変エージェントフレームワークを用いたMARL(Multi-A gent R einforcement Learning)は,実世界のアプリケーションにおいて大きな実証的成功を収めた。
残念なことに、このMARL問題の理論的理解は、多くのエージェントの呪いと、既存の著作における関係推論の限定的な探索によって欠落している。
モデルフリーアルゴリズムとモデルベースアルゴリズムの最適度差は各エージェント数に独立して対数的であり、多くのエージェントの呪いを和らげる。
論文 参考訳(メタデータ) (2022-09-20T16:42:59Z) - Extracting Latent Steering Vectors from Pretrained Language Models [14.77762401765532]
本研究では,言語モデルデコーダから直接潜在ベクトルを抽出できることを示す。
実験により、ステアリングベクトルが存在し、それが言語モデルの隠れ状態に追加されると、ほぼ完璧にターゲット文を生成することが示された。
テキスト類似度ベンチマークで評価すると, ステアリングベクトル間の距離が文類似度を反映していることが分かる。
論文 参考訳(メタデータ) (2022-05-10T19:04:37Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - CASTLE: Regularization via Auxiliary Causal Graph Discovery [89.74800176981842]
因果構造学習(CASTLE)の正規化を導入し,変数間の因果関係を共同学習することでニューラルネットワークの正規化を提案する。
CASTLEは因果的隣り合いを持つ因果的DAGの特徴のみを効率的に再構成する一方、再構成ベース正規化器は全ての入力特徴を過度に再構成する。
論文 参考訳(メタデータ) (2020-09-28T09:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。