論文の概要: Extracting Latent Steering Vectors from Pretrained Language Models
- arxiv url: http://arxiv.org/abs/2205.05124v1
- Date: Tue, 10 May 2022 19:04:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-14 08:12:40.009607
- Title: Extracting Latent Steering Vectors from Pretrained Language Models
- Title(参考訳): 事前学習言語モデルから潜在ステアリングベクトルを抽出する
- Authors: Nishant Subramani, Nivedita Suresh, Matthew E. Peters
- Abstract要約: 本研究では,言語モデルデコーダから直接潜在ベクトルを抽出できることを示す。
実験により、ステアリングベクトルが存在し、それが言語モデルの隠れ状態に追加されると、ほぼ完璧にターゲット文を生成することが示された。
テキスト類似度ベンチマークで評価すると, ステアリングベクトル間の距離が文類似度を反映していることが分かる。
- 参考スコア(独自算出の注目度): 14.77762401765532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior work on controllable text generation has focused on learning how to
control language models through trainable decoding, smart-prompt design, or
fine-tuning based on a desired objective. We hypothesize that the information
needed to steer the model to generate a target sentence is already encoded
within the model. Accordingly, we explore a different approach altogether:
extracting latent vectors directly from pretrained language model decoders
without fine-tuning. Experiments show that there exist steering vectors, which,
when added to the hidden states of the language model, generate a target
sentence nearly perfectly (> 99 BLEU) for English sentences from a variety of
domains. We show that vector arithmetic can be used for unsupervised sentiment
transfer on the Yelp sentiment benchmark, with performance comparable to models
tailored to this task. We find that distances between steering vectors reflect
sentence similarity when evaluated on a textual similarity benchmark (STS-B),
outperforming pooled hidden states of models. Finally, we present an analysis
of the intrinsic properties of the steering vectors. Taken together, our
results suggest that frozen LMs can be effectively controlled through their
latent steering space.
- Abstract(参考訳): 制御可能なテキスト生成に関する以前の研究は、トレーニング可能なデコーディング、スマートプロンプト設計、あるいは望ましい目的に基づいて微調整を通じて言語モデルを制御する方法を学ぶことに集中していた。
対象の文を生成するためにモデルを操るのに必要な情報は、既にモデル内にエンコードされていると仮定する。
そこで我々は,事前訓練された言語モデルデコーダから直接潜在ベクトルを微調整なしで抽出する,まったく別のアプローチを提案する。
実験により、ステアリングベクトルが存在しており、言語モデルの隠れ状態に追加されると、様々なドメインから英語の文に対してほぼ完全に(>99 BLEU)ターゲット文が生成される。
Yelpの感情評価ベンチマークでは,ベクトル算術が教師なしの感情伝達に利用でき,このタスクに適したモデルに匹敵する性能を示す。
テキスト類似度ベンチマーク (STS-B) で評価すると, ステアリングベクトル間の距離が文類似度を反映していることが判明した。
最後に、ステアリングベクトルの内在的性質について解析する。
その結果, 凍結したlmsは, 潜在性ステアリング空間を介して効果的に制御できることが示唆された。
関連論文リスト
- Activation Scaling for Steering and Interpreting Language Models [55.59689963561315]
モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。
成功した介入は、間違ったトークンで正しいことを正し、その逆を正すべきである。
勾配に基づく最適化を用いることで、特定の種類の効率的かつ解釈可能な介入を学習(そして後で評価)することができる。
論文 参考訳(メタデータ) (2024-10-07T12:01:32Z) - Uncovering Latent Chain of Thought Vectors in Language Models [2.6089354079273512]
本研究では,特定のタスクから派生した「ステアリングベクトル」を用いて,言語モデルの前方通過をバイアスする,ステアリングベクトルの手法について検討する。
自然言語を介さずに思考の連鎖(CoT)推論を行うための言語モデルに適用する。
このアプローチはCoT応答に対して一貫したステアリングをもたらし、CoTへの微調整モデルの従来の方法よりも計算量が少なくなる。
論文 参考訳(メタデータ) (2024-09-21T05:58:07Z) - Improving Activation Steering in Language Models with Mean-Centring [10.101141087916133]
目標データセットに関連付けられたアクティベーションの平均値と、トレーニングアクティベーションの平均値を減じることで、効果的なステアリングベクトルが得られることがわかった。
また、関数ベクトルを抽出するために平均セントリングを適用し、より効果的に自然言語タスクの実行を顕著なマージンでトリガーする。
論文 参考訳(メタデータ) (2023-12-06T18:27:07Z) - GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Internal language model estimation through explicit context vector
learning for attention-based encoder-decoder ASR [19.233720469733797]
本稿では,Lens-Attend-Spell(LAS)モデルに基づく2つの新しい手法を提案する。
実験の結果,提案手法により推定されたILMは最も低いパープレキシティを実現することがわかった。
論文 参考訳(メタデータ) (2022-01-26T07:47:27Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z) - Self-Supervised Contrastive Learning for Unsupervised Phoneme
Segmentation [37.054709598792165]
このモデルは畳み込みニューラルネットワークであり、生波形上で直接動作する。
ノイズコントラスト推定原理を用いて信号のスペクトル変化を同定する。
テスト時には、モデル出力にピーク検出アルゴリズムを適用して最終境界を生成する。
論文 参考訳(メタデータ) (2020-07-27T12:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。