論文の概要: Steering Llama 2 via Contrastive Activation Addition
- arxiv url: http://arxiv.org/abs/2312.06681v4
- Date: Fri, 5 Jul 2024 15:30:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 00:32:39.297666
- Title: Steering Llama 2 via Contrastive Activation Addition
- Title(参考訳): 対照的な活性化付加反応によるLlama 2のステアリング
- Authors: Nina Panickssery, Nick Gabrieli, Julian Schulz, Meg Tong, Evan Hubinger, Alexander Matt Turner,
- Abstract要約: コントラストアクティベーション付加(Contrastive Activation Addition、CAA)は、前方通過中にアクティベーションを変更することで言語モデルを操る手法である。
CAAは、Large Language Models (LLMs)において、どのようにハイレベルな概念が表現されるかを正確に判断し、明らかにする。
- 参考スコア(独自算出の注目度): 41.54815073311959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Contrastive Activation Addition (CAA), an innovative method for steering language models by modifying their activations during forward passes. CAA computes "steering vectors" by averaging the difference in residual stream activations between pairs of positive and negative examples of a particular behavior, such as factual versus hallucinatory responses. During inference, these steering vectors are added at all token positions after the user's prompt with either a positive or negative coefficient, allowing precise control over the degree of the targeted behavior. We evaluate CAA's effectiveness on Llama 2 Chat using multiple-choice behavioral question datasets and open-ended generation tasks. We demonstrate that CAA significantly alters model behavior, is effective over and on top of traditional methods like finetuning and system prompt design, and minimally reduces capabilities. Moreover, we gain deeper insights into CAA's mechanisms by employing various activation space interpretation methods. CAA accurately steers model outputs and sheds light on how high-level concepts are represented in Large Language Models (LLMs).
- Abstract(参考訳): 本稿では,前方通過時のアクティベーションを変更することで,言語モデルをステアリングする革新的な手法であるContrastive Activation Addition (CAA)を紹介する。
CAAは「ステアリングベクター」を計算し、事実と幻覚反応のような特定の行動の肯定的と否定的な事例のペア間の残ストリームアクティベーションの差を平均化する。
推論中、これらのステアリングベクトルは、ユーザのプロンプト後のすべてのトークン位置に正あるいは負の係数で加算され、ターゲットの行動の度合いを正確に制御できる。
Llama 2 ChatにおけるCAAの有効性を,複数選択行動質問データセットとオープン・エンド・ジェネレーション・タスクを用いて評価した。
私たちはCAAがモデル動作を著しく変更し、微調整やシステムプロンプト設計といった従来の手法を駆使し、機能を最小限に抑えることを実証した。
さらに,様々なアクティベーション空間解釈手法を用いて,CAAのメカニズムについて深い知見を得る。
CAAはモデル出力を正確に制御し、Large Language Models (LLMs) でどのようにハイレベルな概念が表現されるかを明らかにします。
関連論文リスト
- Controlling Language and Diffusion Models by Transporting Activations [23.352500740697938]
本稿では,最適な輸送理論で導かれる活性化を制御するためのフレームワークであるアクティベーショントランスポート(AcT)を紹介する。
我々は,大規模言語モデル (LLM) とテキスト・ツー・イメージ拡散モデル (T2Is) の重要な課題に対処することで,我々のアプローチの有効性と汎用性を実験的に示す。
論文 参考訳(メタデータ) (2024-10-30T14:21:33Z) - Semantics-Adaptive Activation Intervention for LLMs via Dynamic Steering Vectors [8.761404991620285]
大規模言語モデル(LLM)の行動を修正するための効果的かつ経済的手法として活性化介入が出現した。
本稿では,モデルアクティベーションを推論時に介入するための動的ステアリングベクトルを構成する新しい手法であるSemantics-Adaptive Dynamic Intervention (SADI)を提案する。
実験結果から,SADIが確立したベースラインをかなりのマージンで上回り,トレーニングなしでのタスク性能が向上した。
論文 参考訳(メタデータ) (2024-10-16T06:58:49Z) - Improving Instruction-Following in Language Models through Activation Steering [58.876600545898675]
命令固有ベクトル表現を言語モデルから導出し,それに従ってモデルをステアリングする。
提案手法は,出力形式や長さ,単語の包摂といった制約に対するモデル適合性をいかに向上させるかを示す。
本研究は,アクティベーションステアリングが言語生成におけるきめ細かい制御に実用的でスケーラブルなアプローチを提供することを示す。
論文 参考訳(メタデータ) (2024-10-15T08:38:20Z) - Activation Scaling for Steering and Interpreting Language Models [55.59689963561315]
モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。
成功した介入は、間違ったトークンで正しいことを正し、その逆を正すべきである。
勾配に基づく最適化を用いることで、特定の種類の効率的かつ解釈可能な介入を学習(そして後で評価)することができる。
論文 参考訳(メタデータ) (2024-10-07T12:01:32Z) - Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization [34.05163996072159]
人選好データのアクティベーションから「ステアリングベクトル」を抽出する。
この研究は、双方向の選好最適化によってより効果的なステアリングベクトルを生み出すことができる革新的なアプローチを提案する。
提案手法は, ステアリングベクトルが人間の嗜好データペアの生成確率に直接影響を与えるように設計されている。
論文 参考訳(メタデータ) (2024-05-28T05:10:40Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Steering Language Models With Activation Engineering [40.04138190785384]
アクティベーションエンジニアリングを導入し、モデル出力を制御(またはステア)するためにアクティベーションの推論時間を変更する。
LLaMA-3 や OPT などのモデルを用いて, 負対正の感情変化と解毒を行う。
ActAddは、ターゲット外のタスクのパフォーマンスを維持しながら、高レベルの出力特性(トピックや感情など)を推論時間で制御する。
論文 参考訳(メタデータ) (2023-08-20T12:21:05Z) - ContrastVAE: Contrastive Variational AutoEncoder for Sequential
Recommendation [58.02630582309427]
本稿では,コントラスト学習を変分オートエンコーダの枠組みに組み込むことを提案する。
ContrastELBOは,従来のシングルビューELBOを2ビューケースに拡張した,新しいトレーニング目標である。
また、コントラストELBOの具体化として、コントラスト正規化を備えた2分岐VAEモデルであるContrastVAEを提案する。
論文 参考訳(メタデータ) (2022-08-27T03:35:00Z) - MCDAL: Maximum Classifier Discrepancy for Active Learning [74.73133545019877]
近年の最先端のアクティブラーニング手法は, 主にGAN(Generative Adversarial Networks)をサンプル取得に活用している。
本稿では,MCDAL(Maximum Discrepancy for Active Learning)と呼ぶ新しいアクティブラーニングフレームワークを提案する。
特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。
論文 参考訳(メタデータ) (2021-07-23T06:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。