論文の概要: Activation Addition: Steering Language Models Without Optimization
- arxiv url: http://arxiv.org/abs/2308.10248v1
- Date: Sun, 20 Aug 2023 12:21:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 16:52:30.781440
- Title: Activation Addition: Steering Language Models Without Optimization
- Title(参考訳): アクティベーションの追加: 最適化なしのステアリング言語モデル
- Authors: Alex Turner, Lisa Thiergart, David Udell, Gavin Leech, Ulisse Mini,
Monte MacDiarmid
- Abstract要約: 我々は,アクティベーションエンジニアリングについて検討する。モデル動作を予測可能に変更するために,推論時にアクティベーションを変更する。
我々の推論時間アプローチは、出力の高レベルな特性を制御し、ターゲット外のモデル性能を保ちます。
微調整やRLHFよりもはるかに少ない計算と実装の労力で、ユーザは自然言語の仕様を提供し、そのオーバーヘッドはモデルのサイズとともに自然にスケールできる。
- 参考スコア(独自算出の注目度): 0.8388591755871735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliably controlling the behavior of large language models (LLMs) is a
pressing open problem. Existing methods include supervised finetuning,
reinforcement learning from human feedback (RLHF), prompt engineering and
guided decoding. We instead investigate activation engineering: modifying
activations at inference time to predictably alter model behavior. In
particular, we bias the forward pass with an added 'steering vector' implicitly
specified through natural language.
Unlike past work which learned these steering vectors (Subramani, Suresh, and
Peters 2022; Hernandez, Li, and Andreas 2023), our Activation Addition (ActAdd)
method computes them by taking the activation differences that result from
pairs of prompts. We demonstrate ActAdd on GPT-2 on OpenWebText and ConceptNet.
Our inference-time approach yields control over high-level properties of output
and preserves off-target model performance. It involves far less compute and
implementation effort compared to finetuning or RLHF, allows users to provide
natural language specifications, and its overhead scales naturally with model
size.
- Abstract(参考訳): 大規模言語モデル(LLM)の振る舞いを確実に制御することは、オープンな問題である。
既存の方法には、教師付き微調整、人間フィードバックからの強化学習(rlhf)、プロンプトエンジニアリング、ガイドデコードなどがある。
モデル動作を予測可能に変更するために、推論時にアクティベーションを変更する。
特に、自然言語で暗黙的に指定された「ステアリングベクトル」を追加して前方通過をバイアスする。
これらのステアリングベクトル(Subramani、Suresh、Peters 2022、Hernandez、Li、Andreas 2023)を学習した過去の研究とは異なり、我々のアクティベーション加算法(ActAdd)は一連のプロンプトから得られるアクティベーション差を計算している。
我々は OpenWebText と ConceptNet 上で GPT-2 上の ActAdd を実証する。
我々の推論時間アプローチは出力の高レベルな特性を制御し、ターゲット外のモデル性能を保ちます。
微調整やRLHFよりもはるかに少ない計算と実装の労力で、ユーザは自然言語の仕様を提供し、そのオーバーヘッドはモデルのサイズとともに自然にスケールできる。
関連論文リスト
- Semantics-Adaptive Activation Intervention for LLMs via Dynamic Steering Vectors [8.761404991620285]
大規模言語モデル(LLM)の行動を修正するための効果的かつ経済的手法として活性化介入が出現した。
本稿では,モデルアクティベーションを推論時に介入するための動的ステアリングベクトルを構成する新しい手法であるSemantics-Adaptive Dynamic Intervention (SADI)を提案する。
実験結果から,SADIが確立したベースラインをかなりのマージンで上回り,トレーニングなしでのタスク性能が向上した。
論文 参考訳(メタデータ) (2024-10-16T06:58:49Z) - Improving Instruction-Following in Language Models through Activation Steering [58.876600545898675]
命令固有ベクトル表現を言語モデルから導出し,それに従ってモデルをステアリングする。
提案手法は,出力形式や長さ,単語の包摂といった制約に対するモデル適合性をいかに向上させるかを示す。
本研究は,アクティベーションステアリングが言語生成におけるきめ細かい制御に実用的でスケーラブルなアプローチを提供することを示す。
論文 参考訳(メタデータ) (2024-10-15T08:38:20Z) - Activation Scaling for Steering and Interpreting Language Models [55.59689963561315]
モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。
成功した介入は、間違ったトークンで正しいことを正し、その逆を正すべきである。
勾配に基づく最適化を用いることで、特定の種類の効率的かつ解釈可能な介入を学習(そして後で評価)することができる。
論文 参考訳(メタデータ) (2024-10-07T12:01:32Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Steering Llama 2 via Contrastive Activation Addition [41.54815073311959]
コントラストアクティベーション付加(Contrastive Activation Addition、CAA)は、前方通過中にアクティベーションを変更することで言語モデルを操る手法である。
CAAは、Large Language Models (LLMs)において、どのようにハイレベルな概念が表現されるかを正確に判断し、明らかにする。
論文 参考訳(メタデータ) (2023-12-09T04:40:46Z) - Improving Activation Steering in Language Models with Mean-Centring [10.101141087916133]
目標データセットに関連付けられたアクティベーションの平均値と、トレーニングアクティベーションの平均値を減じることで、効果的なステアリングベクトルが得られることがわかった。
また、関数ベクトルを抽出するために平均セントリングを適用し、より効果的に自然言語タスクの実行を顕著なマージンでトリガーする。
論文 参考訳(メタデータ) (2023-12-06T18:27:07Z) - Swim: A General-Purpose, High-Performing, and Efficient Activation
Function for Locomotion Control Tasks [0.2538209532048866]
活性化関数はディープラーニングアルゴリズムの性能において重要な役割を果たす。
特に、スウェーデンのアクティベーション関数はより深いモデルでReLUを上回る傾向にある。
我々はSwishの汎用的で効率的で高性能な代替手段であるSwimを提案する。
論文 参考訳(メタデータ) (2023-03-05T11:04:33Z) - Transformers with Learnable Activation Functions [63.98696070245065]
我々は、Rational Activation Function (RAF) を用いて、入力データに基づいてトレーニング中の最適なアクティベーション関数を学習する。
RAFは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。
論文 参考訳(メタデータ) (2022-08-30T09:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。