論文の概要: LM-Switch: Lightweight Language Model Conditioning in Word Embedding
Space
- arxiv url: http://arxiv.org/abs/2305.12798v1
- Date: Mon, 22 May 2023 07:52:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 17:41:19.549143
- Title: LM-Switch: Lightweight Language Model Conditioning in Word Embedding
Space
- Title(参考訳): LM-Switch:単語埋め込み空間における軽量言語モデル条件付け
- Authors: Chi Han, Jialiang Xu, Manling Li, Yi Fung, Chenkai Sun, Nan Jiang,
Tarek Abdelzaher, Heng Ji
- Abstract要約: 本稿では,ジェネレーティブ言語モデルコンディショニングのための理論的基礎と軽量でシンプルな手法であるLM-Switchを紹介する。
LM-Switchは多種多様なタスクをモデル化でき、最先端のベースラインと比較して同等あるいは優れたパフォーマンスが得られることを示す。
- 参考スコア(独自算出の注目度): 45.645632406931945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, large language models (LMs) have achieved remarkable
progress across various natural language processing tasks. As pre-training and
fine-tuning are costly and might negatively impact model performance, it is
desired to efficiently adapt an existing model to different conditions such as
styles, sentiments or narratives, when facing different audiences or scenarios.
However, efficient adaptation of a language model to diverse conditions remains
an open challenge. This work is inspired by the observation that text
conditions are often associated with selection of certain words in a context.
Therefore we introduce LM-Switch, a theoretically grounded, lightweight and
simple method for generative language model conditioning. We begin by
investigating the effect of conditions in Hidden Markov Models (HMMs), and
establish a theoretical connection with language model. Our finding suggests
that condition shifts in HMMs are associated with linear transformations in
word embeddings. LM-Switch is then designed to deploy a learnable linear factor
in the word embedding space for language model conditioning. We show that
LM-Switch can model diverse tasks, and achieves comparable or better
performance compared with state-of-the-art baselines in LM detoxification and
generation control, despite requiring no more than 1% of parameters compared
with baselines and little extra time overhead compared with base LMs. It is
also able to learn from as few as a few sentences or one document. Moreover, a
learned LM-Switch can be transferred to other LMs of different sizes, achieving
a detoxification performance similar to the best baseline. We will make our
code available to the research community following publication.
- Abstract(参考訳): 近年,大規模言語モデル (LM) は様々な自然言語処理タスクにおいて顕著な進歩を遂げている。
事前トレーニングと微調整はコストがかかり、モデルのパフォーマンスに悪影響を及ぼす可能性があるため、異なるオーディエンスやシナリオに直面する場合、既存のモデルをスタイル、感情、物語など、さまざまな条件に効果的に適応させることが望まれる。
しかし、言語モデルの多様な条件への効率的な適応は、まだ未解決の課題である。
この研究は、テキスト条件が文脈における特定の単語の選択と関連しているという観察にインスパイアされている。
そこで我々は,理論上基礎を成し,軽量かつシンプルな生成言語モデル条件付け手法であるLM-Switchを紹介した。
まず,隠れマルコフモデル(HMM)における条件の影響を調査し,言語モデルとの理論的関連性を確立する。
その結果,HMMの条件変化は単語埋め込みにおける線形変換と関連していることがわかった。
lm-switchは言語モデル条件付けのための単語埋め込み空間に学習可能な線形因子を配置するように設計されている。
本研究では, LM-Switch は多種多様なタスクをモデル化し, LM のデトックス化および生成制御における最先端のベースラインと比較して, 基本ラインに比べて1% 未満のパラメータを必要とせず, 基本LM に比べて時間オーバーヘッドが少ないにもかかわらず, 同等あるいは優れた性能が得られることを示す。
また、少数の文章や1つの文書から学ぶこともできる。
さらに、学習したLM-Switchを異なる大きさの他のLMに転送することができ、最高のベースラインと同様の解毒性能が得られる。
コードを公開後、研究コミュニティに公開します。
関連論文リスト
- What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。
RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。
RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文 参考訳(メタデータ) (2024-06-06T17:34:24Z) - Backward Lens: Projecting Language Model Gradients into the Vocabulary
Space [94.85922991881242]
勾配行列は、その前方および後方の入力の低ランク線形結合としてキャスト可能であることを示す。
次に、これらの勾配を語彙項目に投影する手法を開発し、新しい情報がLMのニューロンにどのように格納されているかのメカニズムを探索する。
論文 参考訳(メタデータ) (2024-02-20T09:57:08Z) - Exploring In-Context Learning of Textless Speech Language Model for Speech Classification Tasks [98.5311231450689]
インコンテキスト学習(ICL)は,大規模言語モデル(LLM)の利用において重要な役割を担っている。
本研究は,テキストレス音声 LM を用いた音声分類タスクのための ICL を探索する最初の研究である。
論文 参考訳(メタデータ) (2023-10-19T05:31:45Z) - Meta-Tuning LLMs to Leverage Lexical Knowledge for Generalizable Language Style Understanding [24.355564722047244]
現在の大規模言語モデルは、微調整なしでいくつかの言語スタイルを捉えるのに苦労していることを示す。
我々は,LLMを代表語彙に基づいてメタトレーニングし,それらが微調整されていない新しいスタイルを認識できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-24T00:17:36Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z) - Language Models as Agent Models [42.37422271002712]
LMは、特定の狭義の意図的なコミュニケーションのモデルである、と私は主張する。
今日の非破壊的かつエラーを起こしやすいモデルでさえ、LMはきめ細かいコミュニケーション意図の表現を推論し、使用します。
論文 参考訳(メタデータ) (2022-12-03T20:18:16Z) - Replacing Language Model for Style Transfer [6.364517234783756]
テキストスタイル転送(TST)のためのシーケンス・ツー・シーケンス言語モデリングフレームワークである置換言語モデル(RLM)を導入する。
提案手法は,ソース文の各トークンを類似した意味を持つテキストスパンで自動回帰的に置き換える。
新しいスパンは非自己回帰型マスキング言語モデルによって生成され、置換されたトークンのローカルコンテキストの意味をよりよく保存することができる。
論文 参考訳(メタデータ) (2022-11-14T13:35:55Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Conditioned Natural Language Generation using only Unconditioned
Language Model: An Exploration [8.623022983093444]
トランスフォーマーに基づく言語モデルは、自然言語生成(NLG)において非常に強力であることが示されている。
我々は、元の無条件LMは、条件付きNLGに十分であると主張している。
提案手法は, 自動評価と人的評価により, 試料の流布度と多様性によって評価した。
論文 参考訳(メタデータ) (2020-11-14T17:45:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。