論文の概要: Towards Closing the Autoregressive Gap in Language Modeling via Entropy-Gated Continuous Bitstream Diffusion
- arxiv url: http://arxiv.org/abs/2605.07013v1
- Date: Thu, 07 May 2026 22:50:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.661689
- Title: Towards Closing the Autoregressive Gap in Language Modeling via Entropy-Gated Continuous Bitstream Diffusion
- Title(参考訳): Entropy-Gated Continuous Bitstream Diffusionによる言語モデリングにおける自己回帰ギャップの閉鎖
- Authors: Georgios Batzolis, Mark Girolami, Luca Ambrogioni,
- Abstract要約: 拡散言語モデル(DLM)は並列で順序に依存しない生成を約束するが、歴史的にはサンプルの品質と多様性において自己回帰モデルに遅れを取ってきた。
トークン埋め込みに対する最近の連続流れと拡散アプローチは、このギャップを狭め、連続状態空間が言語に非常に有効であることを示唆している。
本研究では,テキストを固定幅のバイナリビットストリーム上での連続拡散プロセスとしてモデル化することにより,自己回帰的ギャップをさらに埋める。
- 参考スコア(独自算出の注目度): 14.692250535148196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion language models (DLMs) promise parallel, order-agnostic generation, but on standard benchmarks they have historically lagged behind autoregressive models in sample quality and diversity. Recent continuous flow and diffusion approaches over token embeddings have narrowed this gap, suggesting continuous state spaces are highly effective for language. In this work, we further close the autoregressive gap by modeling text as a continuous diffusion process over fixed-width binary bitstreams. Our approach represents semantic tokens as analog bit sequences and utilizes a matched-filter residual parameterization to isolate contextual learning from analytic independent-bit posteriors. Crucially, we adopt a stochastic sampler that applies Langevin-type corrections gated by the entropy-rate profile, automatically concentrating stochasticity in high-information regions while remaining nearly deterministic elsewhere. On the One Billion Word Benchmark (LM1B), our 130M-parameter bitstream model reaches a generative perplexity ($\GenPPL$) of $59.76$ at matched real-data entropy ($4.31$) using 256 neural function evaluations (NFEs), decisively outperforming prior DLM baselines and reaching the autoregressive reference. On OpenWebText (OWT), our stochastic sampler establishes a new continuous-DLM Pareto frontier, achieving $\GenPPL=27.06$ at an entropy of $5.26$ using $4\times$ fewer steps than previous 1024-NFE baselines. As an additional architectural benefit, bitstream diffusion removes the $\mathcal{O}(V)$ vocabulary scaling bottleneck shared by standard DLMs. By predicting $\mathcal{O}(\log V)$ bitwise logits via semantic bit-patching, our model yields a reduced memory footprint and higher throughput, demonstrating a scalable paradigm for language generation as vocabulary sizes grow.
- Abstract(参考訳): 拡散言語モデル(DLMs)は並列で順序に依存しない生成を約束するが、標準ベンチマークでは、歴史的にサンプルの品質と多様性において自己回帰モデルに遅れを取ってきた。
トークン埋め込みに対する最近の連続流れと拡散アプローチは、このギャップを狭め、連続状態空間が言語に非常に有効であることを示唆している。
本研究では,テキストを固定幅のバイナリビットストリーム上での連続拡散プロセスとしてモデル化することにより,自己回帰的ギャップをさらに埋める。
提案手法は, 意味トークンをアナログビットシーケンスとして表現し, 一致フィルタ残差パラメータ化を用いて, 解析的独立ビット後部から文脈学習を分離する。
重要な点として,エントロピー・レートプロファイルによるLangevin型補正を適用し,高度情報領域における確率性を自動的に集中させるとともに,他の領域でもほぼ決定論的に維持する確率的サンプリング方式を採用する。
10億ワードベンチマーク(LM1B)では、我々の130Mパラメータのビットストリームモデルが、256のニューラル関数評価(NFE)を用いて、一致した実データエントロピー(4.31ドル)で59.76ドル(約5,800万円)の生成パープレキシティに達し、決定的にDLMベースラインを上回り、自己回帰基準に達する。
OpenWebText (OWT)では、我々の確率的なサンプルが新しい連続DLM Paretoフロンティアを確立し、以前の1024-NFEベースラインよりも少ないステップで5.26ドルのエントロピーで$\GenPPL=27.06$を達成する。
さらにアーキテクチャ上の利点として、ビットストリーム拡散は標準的なDLMで共有される、$\mathcal{O}(V)$ vocabularyのスケーリングボトルネックを取り除く。
セマンティックビットパッチによる$\mathcal{O}(\log V)$bitwise logitsを予測することで,メモリフットプリントの削減とスループットの向上を実現し,語彙サイズが大きくなるにつれて,言語生成のスケーラブルなパラダイムを示す。
関連論文リスト
- LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling [39.014850192441656]
連続拡散言語モデル(DLM)は、スパースデータ空間と未探索の設計空間により、離散的な言語モデルよりも遅れている。
LangFlowは、組み込み空間のDLMを、Bregmanの発散を介してFlow Matchingに接続する。
LangFlowはperplexity (PPL) とgenerative perplexity (Gen. PPL) の両方で上位のDLMと競合する
7つのベンチマークのうち4つは、ゼロショット転送において自己回帰ベースラインを超えている。
論文 参考訳(メタデータ) (2026-04-13T17:21:41Z) - CAWN: Continuous Acoustic Wave Networks for Autoregressive Language Modeling [46.16066322190728]
完全連続配列混合アーキテクチャであるCAWN(Continuous Acoustic Wave Network)を導入する。
CAWNは離散行列ベースの注意を代わりに、多面体複素ドメインファサーに隠された状態を計画している。
超長コンテキスト上での信号劣化を防止するため,デュアルゲート選択位相共振機構を導入する。
論文 参考訳(メタデータ) (2026-04-05T20:13:22Z) - ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping [26.560813832545563]
拡散大言語モデル(dLLMs)は、自己回帰モデル(ARMs)に代わる有望な選択肢として浮上している。
我々は、dLLMの生成ダイナミクスを分析し、キー、値、隠された状態を含む中間表現が連続するイテレーション間でのみ微妙に変化することを発見した。
我々は,dLLMのトレーニング不要な推論高速化フレームワークである textbfES-dLLM を提案する。
論文 参考訳(メタデータ) (2026-03-10T14:31:19Z) - Balancing Understanding and Generation in Discrete Diffusion Models [58.62235340638143]
Masked Diffusion Language Models (MDLM) は意味理解とゼロショットの一般化に優れる。
UDLM(Uniform-Noise Diffusion Language Models)は、強力な数ステップ生成品質を実現する。
定常雑音カーネルを介して2つのパラダイムをブリッジするXDLMを提案する。
論文 参考訳(メタデータ) (2026-02-01T18:00:35Z) - Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - Sequential Diffusion Language Models [110.06562906987052]
拡散言語モデル(DLM)は理論効率が強いが、固定長の復号化とキー値キャッシュとの非互換性によって制限される。
次点と次点の予測を統一するNext Sequence Prediction (NSP)を導入する。
本稿では,事前学習した自己回帰言語モデル(ALM)を最小限のコストで再現可能な逐次拡散言語モデル(SDLM)を提案する。
論文 参考訳(メタデータ) (2025-09-28T17:59:15Z) - FS-DFM: Fast and Accurate Long Text Generation with Few-Step Diffusion Language Models [6.463102424844334]
FS-DFM, Few-Step Discrete Flow-Matchingを紹介する。
品質を犠牲にすることなく高速に設計された離散フローマッチングモデル。
言語モデリングベンチマークでは、8つのサンプリングステップを持つFS-DFMが1,024ステップの離散フローベースラインでパープレキシティパリティを達成する。
論文 参考訳(メタデータ) (2025-09-24T23:59:05Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - LAVA NAT: A Non-Autoregressive Translation Model with Look-Around
Decoding and Vocabulary Attention [54.18121922040521]
非自己回帰翻訳(NAT)モデルは、1つの前方通過で複数のトークンを生成する。
これらのNATモデルは、しばしば多重性の問題に悩まされ、重複トークンや欠落トークンを生成する。
本稿では,この問題を解決するための新しい方法として,Look-Around(LA)戦略とVocabulary Attention(VA)メカニズムを提案する。
論文 参考訳(メタデータ) (2020-02-08T04:11:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。