Fugu-MT 論文翻訳(概要): LM-Switch: Lightweight Language Model Conditioning in Word Embedding Space

論文の概要: LM-Switch: Lightweight Language Model Conditioning in Word Embedding Space

arxiv url: http://arxiv.org/abs/2305.12798v1
Date: Mon, 22 May 2023 07:52:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-23 17:41:19.549143
Title: LM-Switch: Lightweight Language Model Conditioning in Word Embedding Space
Title（参考訳）: LM-Switch:単語埋め込み空間における軽量言語モデル条件付け
Authors: Chi Han, Jialiang Xu, Manling Li, Yi Fung, Chenkai Sun, Nan Jiang, Tarek Abdelzaher, Heng Ji
Abstract要約: 本稿では,ジェネレーティブ言語モデルコンディショニングのための理論的基礎と軽量でシンプルな手法であるLM-Switchを紹介する。 LM-Switchは多種多様なタスクをモデル化でき、最先端のベースラインと比較して同等あるいは優れたパフォーマンスが得られることを示す。
参考スコア（独自算出の注目度）: 45.645632406931945
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, large language models (LMs) have achieved remarkable progress across various natural language processing tasks. As pre-training and fine-tuning are costly and might negatively impact model performance, it is desired to efficiently adapt an existing model to different conditions such as styles, sentiments or narratives, when facing different audiences or scenarios. However, efficient adaptation of a language model to diverse conditions remains an open challenge. This work is inspired by the observation that text conditions are often associated with selection of certain words in a context. Therefore we introduce LM-Switch, a theoretically grounded, lightweight and simple method for generative language model conditioning. We begin by investigating the effect of conditions in Hidden Markov Models (HMMs), and establish a theoretical connection with language model. Our finding suggests that condition shifts in HMMs are associated with linear transformations in word embeddings. LM-Switch is then designed to deploy a learnable linear factor in the word embedding space for language model conditioning. We show that LM-Switch can model diverse tasks, and achieves comparable or better performance compared with state-of-the-art baselines in LM detoxification and generation control, despite requiring no more than 1% of parameters compared with baselines and little extra time overhead compared with base LMs. It is also able to learn from as few as a few sentences or one document. Moreover, a learned LM-Switch can be transferred to other LMs of different sizes, achieving a detoxification performance similar to the best baseline. We will make our code available to the research community following publication.
Abstract（参考訳）: 近年,大規模言語モデル (LM) は様々な自然言語処理タスクにおいて顕著な進歩を遂げている。事前トレーニングと微調整はコストがかかり、モデルのパフォーマンスに悪影響を及ぼす可能性があるため、異なるオーディエンスやシナリオに直面する場合、既存のモデルをスタイル、感情、物語など、さまざまな条件に効果的に適応させることが望まれる。しかし、言語モデルの多様な条件への効率的な適応は、まだ未解決の課題である。この研究は、テキスト条件が文脈における特定の単語の選択と関連しているという観察にインスパイアされている。そこで我々は,理論上基礎を成し,軽量かつシンプルな生成言語モデル条件付け手法であるLM-Switchを紹介した。まず,隠れマルコフモデル(HMM)における条件の影響を調査し,言語モデルとの理論的関連性を確立する。その結果,HMMの条件変化は単語埋め込みにおける線形変換と関連していることがわかった。 lm-switchは言語モデル条件付けのための単語埋め込み空間に学習可能な線形因子を配置するように設計されている。本研究では, LM-Switch は多種多様なタスクをモデル化し, LM のデトックス化および生成制御における最先端のベースラインと比較して, 基本ラインに比べて1% 未満のパラメータを必要とせず, 基本LM に比べて時間オーバーヘッドが少ないにもかかわらず, 同等あるいは優れた性能が得られることを示す。また、少数の文章や1つの文書から学ぶこともできる。さらに、学習したLM-Switchを異なる大きさの他のLMに転送することができ、最高のベースラインと同様の解毒性能が得られる。コードを公開後、研究コミュニティに公開します。

関連論文リスト

Subword models struggle with word learning, but surprisal hides it [8.883534683127415]
単語と文字のモデルにおける単語学習を,心理言語学的語彙決定タスクを用いて研究する。サブワードLMは高い精度で単語や非単語を識別するのに苦労するが、文字LMはこの課題を簡単かつ一貫して解決する。
論文参考訳（メタデータ） (2025-02-18T13:09:16Z)
What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。 RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。 RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文参考訳（メタデータ） (2024-06-06T17:34:24Z)
Backward Lens: Projecting Language Model Gradients into the Vocabulary Space [94.85922991881242]
勾配行列は、その前方および後方の入力の低ランク線形結合としてキャスト可能であることを示す。次に、これらの勾配を語彙項目に投影する手法を開発し、新しい情報がLMのニューロンにどのように格納されているかのメカニズムを探索する。
論文参考訳（メタデータ） (2024-02-20T09:57:08Z)
Exploring In-Context Learning of Textless Speech Language Model for Speech Classification Tasks [98.5311231450689]
インコンテキスト学習(ICL)は,大規模言語モデル(LLM)の利用において重要な役割を担っている。本研究は,テキストレス音声 LM を用いた音声分類タスクのための ICL を探索する最初の研究である。
論文参考訳（メタデータ） (2023-10-19T05:31:45Z)
Meta-Tuning LLMs to Leverage Lexical Knowledge for Generalizable Language Style Understanding [24.355564722047244]
現在の大規模言語モデルは、微調整なしでいくつかの言語スタイルを捉えるのに苦労していることを示す。我々は,LLMを代表語彙に基づいてメタトレーニングし,それらが微調整されていない新しいスタイルを認識できるかどうかを検討する。
論文参考訳（メタデータ） (2023-05-24T00:17:36Z)
Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文参考訳（メタデータ） (2023-02-15T18:25:52Z)
Language Models as Agent Models [42.37422271002712]
LMは、特定の狭義の意図的なコミュニケーションのモデルである、と私は主張する。今日の非破壊的かつエラーを起こしやすいモデルでさえ、LMはきめ細かいコミュニケーション意図の表現を推論し、使用します。
論文参考訳（メタデータ） (2022-12-03T20:18:16Z)
Replacing Language Model for Style Transfer [6.364517234783756]
テキストスタイル転送(TST)のためのシーケンス・ツー・シーケンス言語モデリングフレームワークである置換言語モデル(RLM)を導入する。提案手法は,ソース文の各トークンを類似した意味を持つテキストスパンで自動回帰的に置き換える。新しいスパンは非自己回帰型マスキング言語モデルによって生成され、置換されたトークンのローカルコンテキストの意味をよりよく保存することができる。
論文参考訳（メタデータ） (2022-11-14T13:35:55Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)
Conditioned Natural Language Generation using only Unconditioned Language Model: An Exploration [8.623022983093444]
トランスフォーマーに基づく言語モデルは、自然言語生成(NLG)において非常に強力であることが示されている。我々は、元の無条件LMは、条件付きNLGに十分であると主張している。提案手法は, 自動評価と人的評価により, 試料の流布度と多様性によって評価した。
論文参考訳（メタデータ） (2020-11-14T17:45:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。