Fugu-MT 論文翻訳(概要): Steering Llama 2 via Contrastive Activation Addition

論文の概要: Steering Llama 2 via Contrastive Activation Addition

arxiv url: http://arxiv.org/abs/2312.06681v2
Date: Wed, 27 Dec 2023 05:02:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-29 21:20:48.049021
Title: Steering Llama 2 via Contrastive Activation Addition
Title（参考訳）: コントラスト活性化付加による操舵ラマ2
Authors: Nina Rimsky, Nick Gabrieli, Julian Schulz, Meg Tong, Evan Hubinger, Alexander Matt Turner
Abstract要約: コントラストアクティベーション付加(Contrastive Activation Addition、CAA)は、前方通過時のアクティベーションを変更することで言語モデルをステアリングする革新的な手法である。 Llama 2 ChatにおけるCAAの有効性を,複数選択行動問合せデータセットとオープンエンド生成タスクを用いて評価した。
参考スコア（独自算出の注目度）: 43.63161269312073
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Contrastive Activation Addition (CAA), an innovative method for steering language models by modifying activations during their forward passes. CAA computes ``steering vectors'' by averaging the difference in residual stream activations between pairs of positive and negative examples of a particular behavior such as factual versus hallucinatory responses. During inference, these steering vectors are added at all token positions after the user's prompt with either a positive or negative coefficient, allowing precise control over the degree of the targeted behavior. We evaluate CAA's effectiveness on Llama 2 Chat using both multiple-choice behavioral question datasets and open-ended generation tasks. We demonstrate that CAA significantly alters model behavior, outperforms traditional methods like finetuning and few-shot prompting, and minimally reduces capabilities. Moreover, by employing various activation space interpretation methods, we gain deeper insights into CAA's mechanisms. CAA both accurately steers model outputs and also sheds light on how high-level concepts are represented in Large Language Models (LLMs).
Abstract（参考訳）: 本稿では,前方通過時のアクティベーションを変更することで,言語モデルを操る革新的な手法であるContrastive Activation Addition (CAA)を紹介する。 CAAは、事実と幻覚反応のような特定の行動の肯定的および否定的な例のペア間の残ストリームアクティベーションの差を平均化することにより、 `steering vectors'' を計算する。推論中、これらのステアリングベクトルは、ユーザのプロンプト後のすべてのトークン位置に正あるいは負の係数で加算され、ターゲットの行動の度合いを正確に制御できる。 Llama 2 ChatにおけるCAAの有効性を,複数選択行動質問データセットとオープンエンド生成タスクを用いて評価した。私たちはCAAがモデル動作を著しく変更し、微調整や数発のプロンプトといった従来の手法より優れ、最小限の機能を減らすことを示した。さらに,様々なアクティベーション空間解釈手法を用いて,CAAのメカニズムについて深い知見を得る。 CAAは、モデル出力を正確に管理し、また、Large Language Models (LLMs) でどのようにハイレベルな概念が表現されるかを明らかにします。

関連論文リスト

Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文参考訳（メタデータ） (2026-02-02T17:04:36Z)
Mechanistic Indicators of Steering Effectiveness in Large Language Models [3.635648354808971]
アクティベーションベースのステアリングにより、大規模言語モデルでは、トレーニングをせずに中間的アクティベーションに介入することで、ターゲットとなる振る舞いを表現できる。広く使われているにもかかわらず、操舵が成功または失敗する際の機械的要因はいまだに理解されていない。ステアリングの信頼性を内部モデル信号を用いて診断できるかどうかを検討する。
論文参考訳（メタデータ） (2026-02-02T06:56:22Z)
GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文参考訳（メタデータ） (2025-07-24T02:34:13Z)
Scaling laws for activation steering with Llama 2 models and refusal mechanisms [0.13194391758295113]
CAAは、モデルの残留ストリームベクトル空間において、コントラッシブペアを用いて望ましい「方向」を見つけることで機能する。本稿では, Llama 2 モデル (7B, 13B, 70B) を用いたモデルスケールCAAの有効性について検討する。
論文参考訳（メタデータ） (2025-07-15T22:21:18Z)
KV Cache Steering for Controlling Frozen LLMs [80.50365534625438]
キャッシュステアリングは、言語モデルの暗黙的なステアリングのための軽量な方法である。キャッシュステアリングを応用して、小さな言語モデルにおける連鎖推論を誘導する。
論文参考訳（メタデータ） (2025-07-11T17:59:36Z)
Beyond Linear Steering: Unified Multi-Attribute Control for Language Models [1.6874375111244329]
K-ステアリング(K-Steering)は、隠れたアクティベーションに対して単一の非線形マルチラベル分類器を訓練する統一的で柔軟なアプローチである。これにより、線形性の仮定を回避し、別個のベクトル属性の保存とチューニングの必要性を排除し、再トレーニングなしに振る舞いの動的構成を可能にする。アクティベーションに基づく分類器とLCMに基づく判定器の両方で検証された3つのモデルファミリーにおける実験結果から、K-ステアリングは複数の動作を正確に操る上で、強いベースラインより優れていることが証明された。
論文参考訳（メタデータ） (2025-05-30T12:41:19Z)
Patterns and Mechanisms of Contrastive Activation Engineering [0.374490703387131]
CAEは、フレキシブルでタスク固有の振る舞いチューニングの新しいパラダイムを導入する可能性がある。本研究では,配当・配当・配当設定におけるCAEの性能を分析し,欠点を評価し,その効果的な展開のための包括的ガイドラインの開発に着手する。
論文参考訳（メタデータ） (2025-05-06T05:15:12Z)
Steering Large Language Model Activations in Sparse Spaces [21.55545768931058]
AIアライメントにおける重要な課題は、テスト時に望ましい振る舞いに従うために、大きな言語モデル(LLM)を導くことである。スパース・アクティベーション・ステアリング(SAS)はスパース・オートエンコーダ(SAE)を利用してスパース空間のステアリングを行う手法である。
論文参考訳（メタデータ） (2025-02-28T20:43:45Z)
Investigating Generalization of One-shot LLM Steering Vectors [21.2431937128876]
本稿では,1つのトレーニング例に基づいて,勾配降下によるステアリングベクトルの最適化を提案する。得られたベクトルは、複数のモデルにおける安全関連挙動を効果的に媒介する。
論文参考訳（メタデータ） (2025-02-26T06:13:01Z)
Multi-Attribute Steering of Language Models via Targeted Intervention [56.93583799109029]
推論時間介入(ITI)は,大規模言語モデル(LLM)の振る舞いを特定の方向に操るための有望な手法として登場した。マルチ属性・ターゲットステアリング(MAT-Steer)は,複数の属性をまたいだトークンレベルの選択的介入を目的とした,新しいステアリングフレームワークである。
論文参考訳（メタデータ） (2025-02-18T02:27:23Z)
Interpretable Steering of Large Language Models with Feature Guided Activation Additions [4.496738719682736]
本稿では,新しいアクティベーションステアリング法であるFeature Guided Activation Additions (FGAA)を紹介する。スパースオートエンコーダ(SAE)の潜在空間で操作することにより、FGAAは正確なステアリングベクトルを構成する。 Gemma-2-2B と Gemma-2-9B モデルの評価は、FGAA が既存のステアリング法より優れていることを示す。
論文参考訳（メタデータ） (2025-01-17T02:55:23Z)
Refusal in LLMs is an Affine Function [1.722461331472526]
本稿では,アフィン概念編集 (ACE) を言語モデルの振る舞いを制御するためのアプローチとして提案する。 ACEはアフィン部分空間の投影とアクティベーションの追加を組み合わせて、モデルの拒絶反応を確実に制御する。実験の結果、ACEは既存の手法よりもモデル動作をより正確に制御できることがわかった。
論文参考訳（メタデータ） (2024-11-13T20:12:55Z)
Improving Steering Vectors by Targeting Sparse Autoencoder Features [2.4188584949331053]
SAE-Targeted Steering (SAE-TS) という改良されたステアリング法を開発し、意図しない副作用を最小限に抑えながら、特定のSAE特徴を標的としたステアリングベクトルを求める。 SAE-TSは,様々なタスクで評価すると,CAAとSAEの特徴的ステアリングよりもコヒーレンスとステアリング効果のバランスが良いことを示す。
論文参考訳（メタデータ） (2024-11-04T15:46:20Z)
Controlling Language and Diffusion Models by Transporting Activations [23.352500740697938]
本稿では,最適な輸送理論で導かれる活性化を制御するためのフレームワークであるアクティベーショントランスポート(AcT)を紹介する。我々は,大規模言語モデル (LLM) とテキスト・ツー・イメージ拡散モデル (T2Is) の重要な課題に対処することで,我々のアプローチの有効性と汎用性を実験的に示す。
論文参考訳（メタデータ） (2024-10-30T14:21:33Z)
Semantics-Adaptive Activation Intervention for LLMs via Dynamic Steering Vectors [8.761404991620285]
大規模言語モデル(LLM)の行動を修正するための効果的かつ経済的手法として活性化介入が出現した。本稿では,モデルアクティベーションを推論時に介入するための動的ステアリングベクトルを構成する新しい手法であるSemantics-Adaptive Dynamic Intervention (SADI)を提案する。実験結果から,SADIが確立したベースラインをかなりのマージンで上回り,トレーニングなしでのタスク性能が向上した。
論文参考訳（メタデータ） (2024-10-16T06:58:49Z)
Improving Instruction-Following in Language Models through Activation Steering [58.876600545898675]
命令固有ベクトル表現を言語モデルから導出し,それに従ってモデルをステアリングする。提案手法は,出力形式や長さ,単語の包摂といった制約に対するモデル適合性をいかに向上させるかを示す。本研究は,アクティベーションステアリングが言語生成におけるきめ細かい制御に実用的でスケーラブルなアプローチを提供することを示す。
論文参考訳（メタデータ） (2024-10-15T08:38:20Z)
Activation Scaling for Steering and Interpreting Language Models [55.59689963561315]
モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。成功した介入は、間違ったトークンで正しいことを正し、その逆を正すべきである。勾配に基づく最適化を用いることで、特定の種類の効率的かつ解釈可能な介入を学習(そして後で評価)することができる。
論文参考訳（メタデータ） (2024-10-07T12:01:32Z)
InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文参考訳（メタデータ） (2024-01-20T10:41:03Z)
Steering Language Models With Activation Engineering [40.04138190785384]
アクティベーションエンジニアリングを導入し、モデル出力を制御(またはステア)するためにアクティベーションの推論時間を変更する。 LLaMA-3 や OPT などのモデルを用いて, 負対正の感情変化と解毒を行う。 ActAddは、ターゲット外のタスクのパフォーマンスを維持しながら、高レベルの出力特性(トピックや感情など)を推論時間で制御する。
論文参考訳（メタデータ） (2023-08-20T12:21:05Z)
ContrastVAE: Contrastive Variational AutoEncoder for Sequential Recommendation [58.02630582309427]
本稿では,コントラスト学習を変分オートエンコーダの枠組みに組み込むことを提案する。 ContrastELBOは,従来のシングルビューELBOを2ビューケースに拡張した,新しいトレーニング目標である。また、コントラストELBOの具体化として、コントラスト正規化を備えた2分岐VAEモデルであるContrastVAEを提案する。
論文参考訳（メタデータ） (2022-08-27T03:35:00Z)
MCDAL: Maximum Classifier Discrepancy for Active Learning [74.73133545019877]
近年の最先端のアクティブラーニング手法は, 主にGAN(Generative Adversarial Networks)をサンプル取得に活用している。本稿では,MCDAL(Maximum Discrepancy for Active Learning)と呼ぶ新しいアクティブラーニングフレームワークを提案する。特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。
論文参考訳（メタデータ） (2021-07-23T06:57:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。