論文の概要: Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2510.14961v1
- Date: Thu, 16 Oct 2025 17:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.99738
- Title: Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
- Title(参考訳): 繰り返し深度モデルに対する効率的な並列サンプリングと拡散言語モデルとの関係
- Authors: Jonas Geiping, Xinyu Yang, Guinan Su,
- Abstract要約: 繰り返し深度を持つ言語モデルは、層を繰り返して計算量を増やす能力によって定義される。
プレトレーニングにおける最近の取り組みは、これらのアーキテクチャが現代の言語モデリングタスクにスケールできることを実証している。
我々はこれらのモデルのための新しい拡散強制サンプリング器を開発し、生成を加速する。
- 参考スコア(独自算出の注目度): 42.52335470079319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models with recurrent depth, also referred to as universal or looped when considering transformers, are defined by the capacity to increase their computation through the repetition of layers. Recent efforts in pretraining have demonstrated that these architectures can scale to modern language modeling tasks while exhibiting advantages in reasoning tasks. In this work, we examine the relationship between recurrent-depth models and diffusion language models. Building on their similarities, we develop a new diffusion forcing sampler for these models to accelerate generation. The sampler advances by decoding new tokens at every forward pass of the model, while the latent states of these tokens can be further refined in parallel through recurrence. Theoretically, generation with our sampler is strictly more expressive than the baseline autoregressive generation using the same time budget on modern hardware. Moreover, this sampler, based on principles from diffusion literature, can be directly applied to existing 3.5B recurrent-depth transformers without any tuning, leading to up to a 5x speedup. Consequently, our findings not only provide an efficient mechanism for parallelizing the extra computation in recurrent-depth models at inference, but also suggest that such models can be naturally viewed as strong continuous, though causal, diffusion language models.
- Abstract(参考訳): 再帰的な深度を持つ言語モデルは、トランスフォーマーを考える際に普遍的またはループ化(universal or looped)と呼ばれ、層を繰り返して計算量を増やす能力によって定義される。
プレトレーニングにおける最近の取り組みは、これらのアーキテクチャが推論タスクの利点を示しながら、現代の言語モデリングタスクにスケールできることを実証している。
本研究では,繰り返し深度モデルと拡散言語モデルとの関係について検討する。
それらの類似性に基づいて,これらのモデルに対する新しい拡散強制サンプリング器を開発し,生成を加速する。
サンプルはモデルのすべての前方通過で新しいトークンを復号化することで進行するが、これらのトークンの潜在状態は反復的にさらに洗練される。
理論的には、現代のハードウェアで同じ時間予算を使ったベースラインの自己回帰生成よりも、サンプリング器による生成の方が厳密に表現力が高い。
さらに、拡散文学の原理に基づくこのサンプルは、チューニングなしで既存の3.5Bリカレント深さ変換器に直接適用することができ、最大5倍のスピードアップとなる。
その結果,再帰的深度モデルにおける余分な計算を推論時に並列化するための効率的な機構を提供するだけでなく,因果拡散言語モデルであっても,そのようなモデルは自然に強い連続性と見なせることが示唆された。
関連論文リスト
- Auto-Regressive Masked Diffusion Models [9.239507801466322]
仮面拡散モデル (MDM) は言語モデリングの有望なアプローチとして登場している。
自動回帰モデル(ARM)と比較してパフォーマンスのギャップがあり、より多くのトレーニングイテレーションが必要です。
本稿では,自己回帰型マスケッド拡散モデルを提案する。これは,自己回帰型モデルのトレーニング効率と,拡散型モデルの並列生成能力を統一するものである。
論文 参考訳(メタデータ) (2026-01-23T18:42:30Z) - A Convergence Theory for Diffusion Language Models: An Information-Theoretic Perspective [8.15094483029656]
拡散モデルは並列トークンサンプリングを可能にし、より高速な生成と左から右への生成制約を排除する。
我々は情報理論の観点から拡散言語モデルの収束保証を開発する。
これらの結果は拡散言語モデルの実用性に関する新たな理論的洞察を与える。
論文 参考訳(メタデータ) (2025-05-27T16:24:20Z) - Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。
LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Self-conditioned Embedding Diffusion for Text Generation [28.342735885752493]
自己条件埋め込み拡散(Self-conditioned Embedding Diffusion)は、トークンの埋め込みで動作する連続拡散機構である。
テキスト拡散モデルでは,標準自己回帰言語モデルに匹敵するサンプルを生成する。
論文 参考訳(メタデータ) (2022-11-08T13:30:27Z) - DiffusER: Discrete Diffusion via Edit-based Reconstruction [88.62707047517914]
DiffusERは、拡散モデルに基づくテキストの編集ベースの生成モデルである。
機械翻訳、要約、スタイル転送にまたがるいくつかのタスクにおいて、自動回帰モデルと競合する可能性がある。
また、標準的な自己回帰モデルに適さないような、他の種類の世代も実行することができる。
論文 参考訳(メタデータ) (2022-10-30T16:55:23Z) - Twist Decoding: Diverse Generators Guide Each Other [116.20780037268801]
様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。
我々の方法は、語彙、トークン化、あるいは生成順序が共有されていると仮定しない。
論文 参考訳(メタデータ) (2022-05-19T01:27:53Z) - Symbolic Music Generation with Diffusion Models [4.817429789586127]
本論文では,前訓練された可変オートエンコーダの連続潜空間における離散領域をパラメータ化することにより,連続データに対する拡散モデルを訓練する手法を提案する。
同じ連続埋め込み上で動作する自己回帰型言語モデルと比較して,強い無条件生成とポストホック条件付インフィル結果を示す。
論文 参考訳(メタデータ) (2021-03-30T05:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。