論文の概要: FiLM: Fill-in Language Models for Any-Order Generation
- arxiv url: http://arxiv.org/abs/2310.09930v1
- Date: Sun, 15 Oct 2023 19:37:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 17:20:10.015791
- Title: FiLM: Fill-in Language Models for Any-Order Generation
- Title(参考訳): FiLM: 任意の順序生成のための言語モデル
- Authors: Tianxiao Shen, Hao Peng, Ruoqi Shen, Yao Fu, Zaid Harchaoui, Yejin
Choi
- Abstract要約: Fill-in Language Model (FiLM) は、特定の生成順序に固執することなく任意の位置で柔軟な生成を可能にする新しい言語モデリング手法である。
推論中、FiLMは欠落したフレーズ、文、段落をシームレスに挿入できる。
FiLMは、再構成されたテキストセグメントでトレーニングされた左から右への言語モデルに依存する既存のインフィル手法よりも優れています。
- 参考スコア(独自算出の注目度): 71.42044325886194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models have become the backbone of today's AI systems. However,
their predominant left-to-right generation limits the use of bidirectional
context, which is essential for tasks that involve filling text in the middle.
We propose the Fill-in Language Model (FiLM), a new language modeling approach
that allows for flexible generation at any position without adhering to a
specific generation order. Its training extends the masked language modeling
objective by adopting varying mask probabilities sampled from the Beta
distribution to enhance the generative capabilities of FiLM. During inference,
FiLM can seamlessly insert missing phrases, sentences, or paragraphs, ensuring
that the outputs are fluent and are coherent with the surrounding context. In
both automatic and human evaluations, FiLM outperforms existing infilling
methods that rely on left-to-right language models trained on rearranged text
segments. FiLM is easy to implement and can be either trained from scratch or
fine-tuned from a left-to-right language model. Notably, as the model size
grows, FiLM's perplexity approaches that of strong left-to-right language
models of similar sizes, indicating FiLM's scalability and potential as a large
language model.
- Abstract(参考訳): 言語モデルは、今日のAIシステムのバックボーンとなっている。
しかし、その左から右への生成は、テキストを中央に埋め込むタスクに必須の双方向コンテキストの使用を制限する。
我々は,特定の生成順序に固執することなく,任意の位置に柔軟に生成できる新しい言語モデリング手法であるfill-in language model (film)を提案する。
そのトレーニングは、FiLMの生成能力を高めるためにベータ分布からサンプリングされた様々なマスク確率を採用することで、マスク言語モデリングの目的を拡張する。
推論中、FiLMは、欠落したフレーズ、文、段落をシームレスに挿入することができ、出力が流動的で、周囲のコンテキストと整合していることを保証する。
自動評価と人間評価の両方において、フィルムはテキストセグメントを並べ替えて訓練した左から右への言語モデルに依存する既存の埋め込み手法よりも優れている。
FiLMは実装が容易で、スクラッチからトレーニングするか、左から右への言語モデルから微調整できる。
特に、モデルのサイズが大きくなるにつれて、FiLMの難易度は、同じサイズの強い左から右の言語モデルに近づき、FiLMのスケーラビリティと大きな言語モデルとしての可能性を示している。
関連論文リスト
- BWArea Model: Learning World Model, Inverse Dynamics, and Policy for Controllable Language Generation [20.445336386799482]
大規模言語モデル(LLM)は自然言語処理のパラダイムシフトを触媒としているが、制御性の制限は下流アプリケーションにとって大きな課題となっている。
我々は、人間の脳の神経機構、特にBrocaとWernickeの領域からインスピレーションを得て、この問題に対処することを目指している。
論文 参考訳(メタデータ) (2024-05-27T10:45:49Z) - Diffusion Language Models Can Perform Many Tasks with Scaling and
Instruction-Finetuning [56.03057119008865]
拡散言語モデルを拡張することで、強力な言語学習者が効果的に学習できることが示される。
大規模データから知識を最初に取得することで,大規模に有能な拡散言語モデルを構築する。
実験により、拡散言語モデルのスケーリングは、下流言語タスクにおけるパフォーマンスを一貫して改善することが示された。
論文 参考訳(メタデータ) (2023-08-23T16:01:12Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Bidirectional Language Models Are Also Few-shot Learners [54.37445173284831]
SAP(Sequential Autoregressive Prompting)は,双方向モデルの高速化を実現する技術である。
SAPは質問応答と要約に有効であることを示す。
この結果から,より広範な言語モデルの創発的特性として,プロンプトに基づく学習が証明された。
論文 参考訳(メタデータ) (2022-09-29T01:35:57Z) - Fusing Sentence Embeddings Into LSTM-based Autoregressive Language
Models [20.24851041248274]
本稿では,プレフィックス埋め込みを用いたLSTMに基づく自己回帰言語モデルを提案する。
融合は、異なるドメインからのデータセットへの転送後に保存される難易度(16.74$rightarrow$ 15.80)を確実に低下させるのに役立つ。
また,次の単語推定値と人間の読解時間とを相関させることにより,最も優れた融合モデルの評価を行った。
論文 参考訳(メタデータ) (2022-08-04T02:13:03Z) - TEASEL: A Transformer-Based Speech-Prefixed Language Model [4.014524824655106]
マルチモーダル言語分析は、話者の言葉、音響アノテーション、表情を同時にモデル化することを目的としている。
lexiconの機能は、Transformerベースのモデルを通じて大きなコーパスで事前訓練されているため、他のモダリティよりも優れている。
高いパフォーマンスにもかかわらず、新しい自己教師付き学習(SSL)トランスフォーマーを任意のモダリティでトレーニングすることは、データ不足のため通常は不可能である。
論文 参考訳(メタデータ) (2021-09-12T14:08:57Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Probabilistically Masked Language Model Capable of Autoregressive
Generation in Arbitrary Word Order [32.71489048856101]
マスケード言語モデルと自己回帰言語モデルは2種類の言語モデルである。
本稿では,確率的マスキングモデル (PMLM) と呼ばれるマスキング言語モデルに対する確率論的マスキング手法を提案する。
我々は, u-PMLM が自己回帰型置換言語モデルと等価であることを証明した。
論文 参考訳(メタデータ) (2020-04-24T07:38:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。