論文の概要: Insertion Language Models: Sequence Generation with Arbitrary-Position Insertions
- arxiv url: http://arxiv.org/abs/2505.05755v2
- Date: Fri, 16 May 2025 02:40:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 12:32:17.850721
- Title: Insertion Language Models: Sequence Generation with Arbitrary-Position Insertions
- Title(参考訳): 挿入言語モデル:任意ポジションを持つシーケンス生成
- Authors: Dhruvesh Patel, Aishwarya Sahoo, Avinash Amballa, Tahira Naseem, Tim G. J. Rudner, Andrew McCallum,
- Abstract要約: Insertion Language Models (ILM)を導入し、任意の位置にトークンを挿入することを学習する。
ILMはトークン間の強い依存関係を表現することができ、任意の順序でシーケンスを生成する能力により、正確にシーケンスをモデル化することができる。
- 参考スコア(独自算出の注目度): 41.45689715854447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive models (ARMs), which predict subsequent tokens one-by-one ``from left to right,'' have achieved significant success across a wide range of sequence generation tasks. However, they struggle to accurately represent sequences that require satisfying sophisticated constraints or whose sequential dependencies are better addressed by out-of-order generation. Masked Diffusion Models (MDMs) address some of these limitations, but the process of unmasking multiple tokens simultaneously in MDMs can introduce incoherences, and MDMs cannot handle arbitrary infilling constraints when the number of tokens to be filled in is not known in advance. In this work, we introduce Insertion Language Models (ILMs), which learn to insert tokens at arbitrary positions in a sequence -- that is, they select jointly both the position and the vocabulary element to be inserted. By inserting tokens one at a time, ILMs can represent strong dependencies between tokens, and their ability to generate sequences in arbitrary order allows them to accurately model sequences where token dependencies do not follow a left-to-right sequential structure. To train ILMs, we propose a tailored network parameterization and use a simple denoising objective. Our empirical evaluation demonstrates that ILMs outperform both ARMs and MDMs on common planning tasks. Furthermore, we show that ILMs outperform MDMs and perform on par with ARMs in an unconditional text generation task while offering greater flexibility than MDMs in arbitrary-length text infilling.
- Abstract(参考訳): 後続のトークンを1対1で予測する"自動回帰モデル(ARM)は、広範囲なシーケンス生成タスクで大きな成功を収めている。
しかし、厳密な制約を満たす必要のあるシーケンスを正確に表現することや、順序付き依存関係が順序外生成によってよりうまく対処されることに苦慮している。
Masked Diffusion Models (MDM) はこれらの制限のいくつかに対処するが、MDMにおいて複数のトークンを同時にアンマキングするプロセスは不整合を導入し、MDMが予め満たされるトークンの数が分かっていない場合、任意のインフィル制約を処理できない。
本研究では,インサーション言語モデル(ILM)を導入し,任意の位置にトークンを挿入することを学習する。
トークンを一度にひとつ挿入することで、ILMはトークン間の強い依存関係を表現することができ、任意の順序でシーケンスを生成する能力により、トークンの依存関係が左から右へのシーケンシャル構造に従わないシーケンスを正確にモデル化することができる。
ILMを訓練するために,ネットワークパラメータの調整と簡易な認知目標を用いたネットワークパラメータ化を提案する。
我々の経験的評価は、ICMが一般的な計画タスクにおいてARMとMDMの両方より優れていることを示している。
さらに,不条件テキスト生成タスクにおいて,IMMがMDMより優れ,ARMと同等に動作し,任意の長さのテキスト入力において,MDMよりも柔軟性が高いことを示す。
関連論文リスト
- Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。
我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。
我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2025-04-29T06:33:13Z) - Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は、言語モデル(LM)における多くの未理解の欠点と関連している。
本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。
本稿では,学習トークン分布と等価バイトレベル分布とのマッピングを確立するフレームワークであるByte-Token Representation Lemmaを紹介する。
論文 参考訳(メタデータ) (2024-10-11T23:30:42Z) - TEAL: Tokenize and Embed ALL for Multi-modal Large Language Models [69.49978333446538]
TEALは任意のモダリティからの入力をトークンシーケンスとして扱うアプローチである。
トークンシーケンスを学習可能な埋め込み行列で結合埋め込み空間に埋め込む。
実験により、TEALはマルチモーダル理解を大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-11-08T10:34:16Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Inconsistencies in Masked Language Models [20.320583166619528]
Masked Language Model (MLM) は、マスキングされた位置におけるトークンの分布をシーケンスで提供することができる。
異なるマスキングパターンに対応する分布は、かなりの矛盾を示す可能性がある。
本稿では,条件文の集合(Ensemble of Conditionals)と呼ばれる fors の推論時間戦略を提案する。
論文 参考訳(メタデータ) (2022-12-30T22:53:25Z) - Bi-Granularity Contrastive Learning for Post-Training in Few-Shot Scene [10.822477939237459]
トークンレベルとシーケンスレベルの両方のコントラスト学習を統合するために,ポストトレーニングのためのコントラストマスク言語モデリング(CMLM)を提案する。
CMLMは、データ拡張を必要とせずに、数ショット設定で、最近のいくつかのポストトレーニングメソッドを超越している。
論文 参考訳(メタデータ) (2021-06-04T08:17:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。