論文の概要: Word Embeddings Are Steers for Language Models
- arxiv url: http://arxiv.org/abs/2305.12798v2
- Date: Thu, 6 Jun 2024 06:07:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-08 01:09:36.907399
- Title: Word Embeddings Are Steers for Language Models
- Title(参考訳): 言語モデルのための単語埋め込み
- Authors: Chi Han, Jialiang Xu, Manling Li, Yi Fung, Chenkai Sun, Nan Jiang, Tarek Abdelzaher, Heng Ji,
- Abstract要約: このようなステアをLM-Steersと呼び、すべてのサイズのLMに存在するものを見つけます。
言語モデルのデトックス化や感情制御といったタスクでは、LM-Steersは同等または優れたパフォーマンスを達成することができる。
LM-Steerは明示的な形式計算により異なる言語モデル間で転送可能である。
- 参考スコア(独自算出の注目度): 57.83026781380927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) automatically learn word embeddings during pre-training on language corpora. Although word embeddings are usually interpreted as feature vectors for individual words, their roles in language model generation remain underexplored. In this work, we theoretically and empirically revisit output word embeddings and find that their linear transformations are equivalent to steering language model generation styles. We name such steers LM-Steers and find them existing in LMs of all sizes. It requires learning parameters equal to 0.2% of the original LMs' size for steering each style. On tasks such as language model detoxification and sentiment control, LM-Steers can achieve comparable or superior performance compared with state-of-the-art controlled generation methods while maintaining a better balance with generation quality. The learned LM-Steer serves as a lens in text styles: it reveals that word embeddings are interpretable when associated with language model generations and can highlight text spans that most indicate the style differences. An LM-Steer is transferrable between different language models by an explicit form calculation. One can also continuously steer LMs simply by scaling the LM-Steer or compose multiple LM-Steers by adding their transformations. Our codes are publicly available at \url{https://github.com/Glaciohound/LM-Steer}.
- Abstract(参考訳): 言語モデル(LM)は、言語コーパスの事前学習中に単語の埋め込みを自動的に学習する。
単語埋め込みは通常、個々の単語の特徴ベクトルとして解釈されるが、言語モデル生成におけるそれらの役割は未解明のままである。
本研究では,理論的かつ経験的に出力語埋め込みを再考し,その線形変換がステアリング言語モデル生成スタイルと等価であることを示す。
このようなステアをLM-Steersと呼び、すべてのサイズのLMに存在するものを見つけます。
各スタイルを操るためには、元のLMのサイズの0.2%に相当する学習パラメータが必要である。
言語モデルのデトキシフィケーションや感情制御といったタスクでは、LM-Steersは、最先端の制御された生成方法と比較して同等または優れた性能を達成でき、生成品質とのバランスは良好である。
学習されたLM-Steerは、テキストスタイルのレンズとして機能し、言語モデル世代に関連するときに単語の埋め込みが解釈可能であることを明らかにし、最もスタイルの違いを示すテキストスパンをハイライトすることができる。
LM-Steerは明示的な形式計算により異なる言語モデル間で転送可能である。
LM-Steerをスケールするか、変換を追加することで複数のLM-Steerを構成することで、LMを継続的に操ることもできる。
我々のコードは \url{https://github.com/Glaciohound/LM-Steer} で公開されています。
関連論文リスト
- What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。
RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。
RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文 参考訳(メタデータ) (2024-06-06T17:34:24Z) - Backward Lens: Projecting Language Model Gradients into the Vocabulary
Space [94.85922991881242]
勾配行列は、その前方および後方の入力の低ランク線形結合としてキャスト可能であることを示す。
次に、これらの勾配を語彙項目に投影する手法を開発し、新しい情報がLMのニューロンにどのように格納されているかのメカニズムを探索する。
論文 参考訳(メタデータ) (2024-02-20T09:57:08Z) - Exploring In-Context Learning of Textless Speech Language Model for Speech Classification Tasks [98.5311231450689]
インコンテキスト学習(ICL)は,大規模言語モデル(LLM)の利用において重要な役割を担っている。
本研究は,テキストレス音声 LM を用いた音声分類タスクのための ICL を探索する最初の研究である。
論文 参考訳(メタデータ) (2023-10-19T05:31:45Z) - Meta-Tuning LLMs to Leverage Lexical Knowledge for Generalizable Language Style Understanding [24.355564722047244]
現在の大規模言語モデルは、微調整なしでいくつかの言語スタイルを捉えるのに苦労していることを示す。
我々は,LLMを代表語彙に基づいてメタトレーニングし,それらが微調整されていない新しいスタイルを認識できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-24T00:17:36Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z) - Language Models as Agent Models [42.37422271002712]
LMは、特定の狭義の意図的なコミュニケーションのモデルである、と私は主張する。
今日の非破壊的かつエラーを起こしやすいモデルでさえ、LMはきめ細かいコミュニケーション意図の表現を推論し、使用します。
論文 参考訳(メタデータ) (2022-12-03T20:18:16Z) - Replacing Language Model for Style Transfer [6.364517234783756]
テキストスタイル転送(TST)のためのシーケンス・ツー・シーケンス言語モデリングフレームワークである置換言語モデル(RLM)を導入する。
提案手法は,ソース文の各トークンを類似した意味を持つテキストスパンで自動回帰的に置き換える。
新しいスパンは非自己回帰型マスキング言語モデルによって生成され、置換されたトークンのローカルコンテキストの意味をよりよく保存することができる。
論文 参考訳(メタデータ) (2022-11-14T13:35:55Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Conditioned Natural Language Generation using only Unconditioned
Language Model: An Exploration [8.623022983093444]
トランスフォーマーに基づく言語モデルは、自然言語生成(NLG)において非常に強力であることが示されている。
我々は、元の無条件LMは、条件付きNLGに十分であると主張している。
提案手法は, 自動評価と人的評価により, 試料の流布度と多様性によって評価した。
論文 参考訳(メタデータ) (2020-11-14T17:45:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。