論文の概要: FiLM: Fill-in Language Models for Any-Order Generation
- arxiv url: http://arxiv.org/abs/2310.09930v1
- Date: Sun, 15 Oct 2023 19:37:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 17:20:10.015791
- Title: FiLM: Fill-in Language Models for Any-Order Generation
- Title(参考訳): FiLM: 任意の順序生成のための言語モデル
- Authors: Tianxiao Shen, Hao Peng, Ruoqi Shen, Yao Fu, Zaid Harchaoui, Yejin
Choi
- Abstract要約: Fill-in Language Model (FiLM) は、特定の生成順序に固執することなく任意の位置で柔軟な生成を可能にする新しい言語モデリング手法である。
推論中、FiLMは欠落したフレーズ、文、段落をシームレスに挿入できる。
FiLMは、再構成されたテキストセグメントでトレーニングされた左から右への言語モデルに依存する既存のインフィル手法よりも優れています。
- 参考スコア(独自算出の注目度): 71.42044325886194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models have become the backbone of today's AI systems. However,
their predominant left-to-right generation limits the use of bidirectional
context, which is essential for tasks that involve filling text in the middle.
We propose the Fill-in Language Model (FiLM), a new language modeling approach
that allows for flexible generation at any position without adhering to a
specific generation order. Its training extends the masked language modeling
objective by adopting varying mask probabilities sampled from the Beta
distribution to enhance the generative capabilities of FiLM. During inference,
FiLM can seamlessly insert missing phrases, sentences, or paragraphs, ensuring
that the outputs are fluent and are coherent with the surrounding context. In
both automatic and human evaluations, FiLM outperforms existing infilling
methods that rely on left-to-right language models trained on rearranged text
segments. FiLM is easy to implement and can be either trained from scratch or
fine-tuned from a left-to-right language model. Notably, as the model size
grows, FiLM's perplexity approaches that of strong left-to-right language
models of similar sizes, indicating FiLM's scalability and potential as a large
language model.
- Abstract(参考訳): 言語モデルは、今日のAIシステムのバックボーンとなっている。
しかし、その左から右への生成は、テキストを中央に埋め込むタスクに必須の双方向コンテキストの使用を制限する。
我々は,特定の生成順序に固執することなく,任意の位置に柔軟に生成できる新しい言語モデリング手法であるfill-in language model (film)を提案する。
そのトレーニングは、FiLMの生成能力を高めるためにベータ分布からサンプリングされた様々なマスク確率を採用することで、マスク言語モデリングの目的を拡張する。
推論中、FiLMは、欠落したフレーズ、文、段落をシームレスに挿入することができ、出力が流動的で、周囲のコンテキストと整合していることを保証する。
自動評価と人間評価の両方において、フィルムはテキストセグメントを並べ替えて訓練した左から右への言語モデルに依存する既存の埋め込み手法よりも優れている。
FiLMは実装が容易で、スクラッチからトレーニングするか、左から右への言語モデルから微調整できる。
特に、モデルのサイズが大きくなるにつれて、FiLMの難易度は、同じサイズの強い左から右の言語モデルに近づき、FiLMのスケーラビリティと大きな言語モデルとしての可能性を示している。
関連論文リスト
- Chunk-Distilled Language Modeling [25.238256586953487]
Chunk-Distilled Language Modeling (CD-LM)は、現在の大規模言語モデル(LLM)における2つの課題に対処するテキスト生成のアプローチである。
提案手法は,ディープネットワークベースのLCMと簡単な検索モジュールを組み合わせることで,単一のデコードステップでマルチトークンテキストチャンクを生成する。
論文 参考訳(メタデータ) (2024-12-31T08:32:15Z) - Liquid: Language Models are Scalable Multi-modal Generators [112.71734051183726]
Liquidは視覚的理解と生成をシームレスに統合する自動回帰生成パラダイムである。
従来のマルチモーダルな大言語モデル(MLLM)とは異なり、Liquidは単一の大言語モデルを用いてこの統合を実現する。
初めてLiquidは、ビジュアルタスクと言語タスクの統一トレーニングによって必然的にパフォーマンスが低下する、スケーリングの法則を明らかにした。
論文 参考訳(メタデータ) (2024-12-05T16:48:16Z) - Diffusion Language Models Can Perform Many Tasks with Scaling and
Instruction-Finetuning [56.03057119008865]
拡散言語モデルを拡張することで、強力な言語学習者が効果的に学習できることが示される。
大規模データから知識を最初に取得することで,大規模に有能な拡散言語モデルを構築する。
実験により、拡散言語モデルのスケーリングは、下流言語タスクにおけるパフォーマンスを一貫して改善することが示された。
論文 参考訳(メタデータ) (2023-08-23T16:01:12Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - Bidirectional Language Models Are Also Few-shot Learners [54.37445173284831]
SAP(Sequential Autoregressive Prompting)は,双方向モデルの高速化を実現する技術である。
SAPは質問応答と要約に有効であることを示す。
この結果から,より広範な言語モデルの創発的特性として,プロンプトに基づく学習が証明された。
論文 参考訳(メタデータ) (2022-09-29T01:35:57Z) - Fusing Sentence Embeddings Into LSTM-based Autoregressive Language
Models [20.24851041248274]
本稿では,プレフィックス埋め込みを用いたLSTMに基づく自己回帰言語モデルを提案する。
融合は、異なるドメインからのデータセットへの転送後に保存される難易度(16.74$rightarrow$ 15.80)を確実に低下させるのに役立つ。
また,次の単語推定値と人間の読解時間とを相関させることにより,最も優れた融合モデルの評価を行った。
論文 参考訳(メタデータ) (2022-08-04T02:13:03Z) - TEASEL: A Transformer-Based Speech-Prefixed Language Model [4.014524824655106]
マルチモーダル言語分析は、話者の言葉、音響アノテーション、表情を同時にモデル化することを目的としている。
lexiconの機能は、Transformerベースのモデルを通じて大きなコーパスで事前訓練されているため、他のモダリティよりも優れている。
高いパフォーマンスにもかかわらず、新しい自己教師付き学習(SSL)トランスフォーマーを任意のモダリティでトレーニングすることは、データ不足のため通常は不可能である。
論文 参考訳(メタデータ) (2021-09-12T14:08:57Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Probabilistically Masked Language Model Capable of Autoregressive
Generation in Arbitrary Word Order [32.71489048856101]
マスケード言語モデルと自己回帰言語モデルは2種類の言語モデルである。
本稿では,確率的マスキングモデル (PMLM) と呼ばれるマスキング言語モデルに対する確率論的マスキング手法を提案する。
我々は, u-PMLM が自己回帰型置換言語モデルと等価であることを証明した。
論文 参考訳(メタデータ) (2020-04-24T07:38:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。