論文の概要: Improving Activation Steering in Language Models with Mean-Centring
- arxiv url: http://arxiv.org/abs/2312.03813v1
- Date: Wed, 6 Dec 2023 18:27:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 17:14:09.116363
- Title: Improving Activation Steering in Language Models with Mean-Centring
- Title(参考訳): 平均集中型言語モデルにおけるアクティベーションステアリングの改善
- Authors: Ole Jorgensen, Dylan Cope, Nandi Schoots, Murray Shanahan
- Abstract要約: 目標データセットに関連付けられたアクティベーションの平均値と、トレーニングアクティベーションの平均値を減じることで、効果的なステアリングベクトルが得られることがわかった。
また、関数ベクトルを抽出するために平均セントリングを適用し、より効果的に自然言語タスクの実行を顕著なマージンでトリガーする。
- 参考スコア(独自算出の注目度): 10.101141087916133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work in activation steering has demonstrated the potential to better
control the outputs of Large Language Models (LLMs), but it involves finding
steering vectors. This is difficult because engineers do not typically know how
features are represented in these models. We seek to address this issue by
applying the idea of mean-centring to steering vectors. We find that taking the
average of activations associated with a target dataset, and then subtracting
the mean of all training activations, results in effective steering vectors. We
test this method on a variety of models on natural language tasks by steering
away from generating toxic text, and steering the completion of a story towards
a target genre. We also apply mean-centring to extract function vectors, more
effectively triggering the execution of a range of natural language tasks by a
significant margin (compared to previous baselines). This suggests that
mean-centring can be used to easily improve the effectiveness of activation
steering in a wide range of contexts.
- Abstract(参考訳): 近年の活性化ステアリングにおける研究は、Large Language Models (LLMs) の出力をよりよく制御する可能性を示しているが、ステアリングベクトルの発見を伴う。
エンジニアは通常、これらのモデルで機能がどのように表現されているかを知らないため、これは難しい。
我々は平均セントリングの概念をステアリングベクトルに適用することでこの問題に対処しようとしている。
対象のデータセットに関連するアクティベーションの平均値を取得して,すべてのトレーニングアクティベーションの平均値を減算すると,効果的なステアリングベクトルが生成される。
本手法は, 有害テキストの生成を回避し, 対象ジャンルに向けてストーリーの完成を制御することによって, 自然言語タスクの様々なモデル上で検証する。
また,関数ベクトルの抽出に平均中心法を適用し,自然言語タスクの実行を(以前のベースラインと比較して)かなりのマージンで効率的にトリガーする。
このことから, アクティベーションステアリングの有効性は, 幅広い文脈で容易に向上できる可能性が示唆された。
関連論文リスト
- Transformer-based Causal Language Models Perform Clustering [20.430255724239448]
簡単な指示追従タスクを導入し、合成データセットを用いてトランスフォーマーに基づく因果言語モデルを分析する。
本研究は,本モデルが隠れ空間内のデータをクラスタリングすることで,タスク固有の情報を学習し,学習中にこのクラスタリングプロセスが動的に進化することを示唆している。
論文 参考訳(メタデータ) (2024-02-19T14:02:31Z) - Activation Addition: Steering Language Models Without Optimization [43.86035726986601]
我々は,アクティベーションエンジニアリングについて検討する。モデル動作を予測可能に変更するために,推論時にアクティベーションを変更する。
我々は OpenWebText と ConceptNet 上の GPT-2 上の ActAdd を実証し,Llama-13B と GPT-J-6B への影響を再現する。
提案手法は,出力の高レベルな特性を推論時間で制御し,オフターゲットトピックのパフォーマンスを保存する。
論文 参考訳(メタデータ) (2023-08-20T12:21:05Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Extracting Latent Steering Vectors from Pretrained Language Models [14.77762401765532]
本研究では,言語モデルデコーダから直接潜在ベクトルを抽出できることを示す。
実験により、ステアリングベクトルが存在し、それが言語モデルの隠れ状態に追加されると、ほぼ完璧にターゲット文を生成することが示された。
テキスト類似度ベンチマークで評価すると, ステアリングベクトル間の距離が文類似度を反映していることが分かる。
論文 参考訳(メタデータ) (2022-05-10T19:04:37Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Controlling the Focus of Pretrained Language Generation Models [22.251710018744497]
本研究では,ユーザが注目するモデルに対して,コンテキストのスパンを"ハイライト"として選択し,関連する出力を生成するための制御機構を開発する。
この目的を達成するために、トレーニング可能な"フォーカスベクトル"で事前訓練されたモデルを拡張し、モデルの埋め込みに直接適用する。
実験の結果,訓練された焦点ベクトルは,ユーザの選択したハイライトに関連する出力を生成するためにモデルを操るのに有効であることがわかった。
論文 参考訳(メタデータ) (2022-03-02T14:46:14Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Active Learning for Sequence Tagging with Deep Pre-trained Models and
Bayesian Uncertainty Estimates [52.164757178369804]
自然言語処理のためのトランスファーラーニングとアクティブラーニングの最近の進歩は、必要なアノテーション予算を大幅に削減する可能性を開く。
我々は,様々なベイズ不確実性推定手法とモンテカルロドロップアウトオプションの実験的研究を,アクティブ学習フレームワークで実施する。
また, 能動学習中にインスタンスを取得するためには, 完全サイズのトランスフォーマーを蒸留版に置き換えることにより, 計算性能が向上することを示した。
論文 参考訳(メタデータ) (2021-01-20T13:59:25Z) - Guiding Attention for Self-Supervised Learning with Transformers [24.785500242464646]
双方向変換器を用いた効率的な自己教師型学習を実現する手法を提案する。
我々のアプローチは、訓練されたモデルにおける自己注意パターンが非言語的規則性の大部分を含んでいることを示す最近の研究によって動機付けられている。
論文 参考訳(メタデータ) (2020-10-06T00:04:08Z) - Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。
この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文 参考訳(メタデータ) (2020-06-22T21:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。