論文の概要: Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2510.14961v1
- Date: Thu, 16 Oct 2025 17:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.99738
- Title: Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
- Title(参考訳): 繰り返し深度モデルに対する効率的な並列サンプリングと拡散言語モデルとの関係
- Authors: Jonas Geiping, Xinyu Yang, Guinan Su,
- Abstract要約: 繰り返し深度を持つ言語モデルは、層を繰り返して計算量を増やす能力によって定義される。
プレトレーニングにおける最近の取り組みは、これらのアーキテクチャが現代の言語モデリングタスクにスケールできることを実証している。
我々はこれらのモデルのための新しい拡散強制サンプリング器を開発し、生成を加速する。
- 参考スコア(独自算出の注目度): 42.52335470079319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models with recurrent depth, also referred to as universal or looped when considering transformers, are defined by the capacity to increase their computation through the repetition of layers. Recent efforts in pretraining have demonstrated that these architectures can scale to modern language modeling tasks while exhibiting advantages in reasoning tasks. In this work, we examine the relationship between recurrent-depth models and diffusion language models. Building on their similarities, we develop a new diffusion forcing sampler for these models to accelerate generation. The sampler advances by decoding new tokens at every forward pass of the model, while the latent states of these tokens can be further refined in parallel through recurrence. Theoretically, generation with our sampler is strictly more expressive than the baseline autoregressive generation using the same time budget on modern hardware. Moreover, this sampler, based on principles from diffusion literature, can be directly applied to existing 3.5B recurrent-depth transformers without any tuning, leading to up to a 5x speedup. Consequently, our findings not only provide an efficient mechanism for parallelizing the extra computation in recurrent-depth models at inference, but also suggest that such models can be naturally viewed as strong continuous, though causal, diffusion language models.
- Abstract(参考訳): 再帰的な深度を持つ言語モデルは、トランスフォーマーを考える際に普遍的またはループ化(universal or looped)と呼ばれ、層を繰り返して計算量を増やす能力によって定義される。
プレトレーニングにおける最近の取り組みは、これらのアーキテクチャが推論タスクの利点を示しながら、現代の言語モデリングタスクにスケールできることを実証している。
本研究では,繰り返し深度モデルと拡散言語モデルとの関係について検討する。
それらの類似性に基づいて,これらのモデルに対する新しい拡散強制サンプリング器を開発し,生成を加速する。
サンプルはモデルのすべての前方通過で新しいトークンを復号化することで進行するが、これらのトークンの潜在状態は反復的にさらに洗練される。
理論的には、現代のハードウェアで同じ時間予算を使ったベースラインの自己回帰生成よりも、サンプリング器による生成の方が厳密に表現力が高い。
さらに、拡散文学の原理に基づくこのサンプルは、チューニングなしで既存の3.5Bリカレント深さ変換器に直接適用することができ、最大5倍のスピードアップとなる。
その結果,再帰的深度モデルにおける余分な計算を推論時に並列化するための効率的な機構を提供するだけでなく,因果拡散言語モデルであっても,そのようなモデルは自然に強い連続性と見なせることが示唆された。
関連論文リスト
- Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Symbolic Music Generation with Diffusion Models [4.817429789586127]
本論文では,前訓練された可変オートエンコーダの連続潜空間における離散領域をパラメータ化することにより,連続データに対する拡散モデルを訓練する手法を提案する。
同じ連続埋め込み上で動作する自己回帰型言語モデルと比較して,強い無条件生成とポストホック条件付インフィル結果を示す。
論文 参考訳(メタデータ) (2021-03-30T05:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。