論文の概要: LM-Switch: Lightweight Language Model Conditioning in Word Embedding
Space
- arxiv url: http://arxiv.org/abs/2305.12798v1
- Date: Mon, 22 May 2023 07:52:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 17:41:19.549143
- Title: LM-Switch: Lightweight Language Model Conditioning in Word Embedding
Space
- Title(参考訳): LM-Switch:単語埋め込み空間における軽量言語モデル条件付け
- Authors: Chi Han, Jialiang Xu, Manling Li, Yi Fung, Chenkai Sun, Nan Jiang,
Tarek Abdelzaher, Heng Ji
- Abstract要約: 本稿では,ジェネレーティブ言語モデルコンディショニングのための理論的基礎と軽量でシンプルな手法であるLM-Switchを紹介する。
LM-Switchは多種多様なタスクをモデル化でき、最先端のベースラインと比較して同等あるいは優れたパフォーマンスが得られることを示す。
- 参考スコア(独自算出の注目度): 45.645632406931945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, large language models (LMs) have achieved remarkable
progress across various natural language processing tasks. As pre-training and
fine-tuning are costly and might negatively impact model performance, it is
desired to efficiently adapt an existing model to different conditions such as
styles, sentiments or narratives, when facing different audiences or scenarios.
However, efficient adaptation of a language model to diverse conditions remains
an open challenge. This work is inspired by the observation that text
conditions are often associated with selection of certain words in a context.
Therefore we introduce LM-Switch, a theoretically grounded, lightweight and
simple method for generative language model conditioning. We begin by
investigating the effect of conditions in Hidden Markov Models (HMMs), and
establish a theoretical connection with language model. Our finding suggests
that condition shifts in HMMs are associated with linear transformations in
word embeddings. LM-Switch is then designed to deploy a learnable linear factor
in the word embedding space for language model conditioning. We show that
LM-Switch can model diverse tasks, and achieves comparable or better
performance compared with state-of-the-art baselines in LM detoxification and
generation control, despite requiring no more than 1% of parameters compared
with baselines and little extra time overhead compared with base LMs. It is
also able to learn from as few as a few sentences or one document. Moreover, a
learned LM-Switch can be transferred to other LMs of different sizes, achieving
a detoxification performance similar to the best baseline. We will make our
code available to the research community following publication.
- Abstract(参考訳): 近年,大規模言語モデル (LM) は様々な自然言語処理タスクにおいて顕著な進歩を遂げている。
事前トレーニングと微調整はコストがかかり、モデルのパフォーマンスに悪影響を及ぼす可能性があるため、異なるオーディエンスやシナリオに直面する場合、既存のモデルをスタイル、感情、物語など、さまざまな条件に効果的に適応させることが望まれる。
しかし、言語モデルの多様な条件への効率的な適応は、まだ未解決の課題である。
この研究は、テキスト条件が文脈における特定の単語の選択と関連しているという観察にインスパイアされている。
そこで我々は,理論上基礎を成し,軽量かつシンプルな生成言語モデル条件付け手法であるLM-Switchを紹介した。
まず,隠れマルコフモデル(HMM)における条件の影響を調査し,言語モデルとの理論的関連性を確立する。
その結果,HMMの条件変化は単語埋め込みにおける線形変換と関連していることがわかった。
lm-switchは言語モデル条件付けのための単語埋め込み空間に学習可能な線形因子を配置するように設計されている。
本研究では, LM-Switch は多種多様なタスクをモデル化し, LM のデトックス化および生成制御における最先端のベースラインと比較して, 基本ラインに比べて1% 未満のパラメータを必要とせず, 基本LM に比べて時間オーバーヘッドが少ないにもかかわらず, 同等あるいは優れた性能が得られることを示す。
また、少数の文章や1つの文書から学ぶこともできる。
さらに、学習したLM-Switchを異なる大きさの他のLMに転送することができ、最高のベースラインと同様の解毒性能が得られる。
コードを公開後、研究コミュニティに公開します。
関連論文リスト
- MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual
Zero-shot Transfer [17.018071714895555]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - Measuring Distributional Shifts in Text: The Advantage of Language
Model-Based Embeddings [11.393822909537796]
実運用における機械学習モデル監視の重要な部分は、入力と出力データのドリフトを測定することである。
大規模言語モデル(LLM)の最近の進歩は、意味的関係を捉える上での有効性を示している。
このような埋め込みを利用してテキストデータの分布変化を測定するクラスタリングに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-04T20:46:48Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Scaling Sentence Embeddings with Large Language Models [43.19994568210206]
本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。
提案手法では,従来のプロンプトに基づく表現手法を自己回帰モデルに適用する。
モデルサイズをスケールすることで、数千億以上のパラメータへのスケーリングが意味的なテキスト類似性タスクのパフォーマンスを損なうことが分かる。
論文 参考訳(メタデータ) (2023-07-31T13:26:03Z) - Benchmarking Large Language Model Capabilities for Conditional
Generation [15.437176676169997]
既存のアプリケーション固有の生成ベンチマークをPLMに適応させる方法について論じる。
PLMは異なるデータ体系に適用可能であり、複数の言語に一般化可能であることを示す。
論文 参考訳(メタデータ) (2023-06-29T08:59:40Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。