論文の概要: MetaState: Persistent Working Memory for Discrete Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2603.01331v1
- Date: Mon, 02 Mar 2026 00:16:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.630087
- Title: MetaState: Persistent Working Memory for Discrete Diffusion Language Models
- Title(参考訳): MetaState: 離散拡散言語モデルのための永続的なワーキングメモリ
- Authors: Kejing Xia, Mingzhe Li, Lixuan Wei, Zhenbang Du, Xiangchi Yuan, Qirui Jin, Wenke Lee,
- Abstract要約: textbfMetaStateは、凍結したdLLMバックボーンに永続的で固定サイズのワーキングメモリを装備する軽量なリカレント拡張である。
LLaDA-8BとDream-7Bでは、textbfMetaStateは、バックボーンの凍結を保ちながら、無視可能なトレーニング可能なパラメータを導入し、凍結ベースラインよりも一貫して精度を向上させる。
- 参考スコア(独自算出の注目度): 13.775010785119761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete diffusion language models (dLLMs) generate text by iteratively denoising a masked sequence. Compared with autoregressive models, this paradigm naturally supports parallel decoding, bidirectional context, and flexible generation patterns. However, standard dLLMs condition each denoising step only on the current hard-masked sequence, while intermediate continuous representations are discarded after sampling and remasking. We refer to this bottleneck as the \textbf{Information Island} problem. It leads to redundant recomputation across steps and can degrade cross-step consistency. We address this limitation with \textbf{MetaState}, a lightweight recurrent augmentation that equips a frozen dLLM backbone with a persistent, fixed-size working memory that remains independent of sequence length. \textbf{MetaState} consists of three trainable modules: a cross-attention Mixer that reads backbone activations into memory slots, a GRU-style Updater that integrates information across denoising steps, and a cross-attention Injector that feeds the updated memory back into backbone activations. We train these modules with $K$-step unrolling to expose them to multi-step denoising dynamics during fine-tuning. On LLaDA-8B and Dream-7B, \textbf{MetaState} introduces negligible trainable parameters while keeping the backbone frozen, and it consistently improves accuracy over frozen baselines. These results demonstrate that persistent cross-step memory is an effective mechanism for bridging denoising steps and improving generation quality in discrete diffusion language models.
- Abstract(参考訳): 離散拡散言語モデル(dLLMs)は、マスキングシーケンスを反復的に復調することでテキストを生成する。
自己回帰モデルと比較すると、このパラダイムは並列デコーディング、双方向コンテキスト、フレキシブルな生成パターンを自然にサポートする。
しかし、標準的なdLLMs条件は、それぞれ現在のハードメイクシーケンスにのみ依存するが、中間的な連続表現はサンプリングと再マッシング後に破棄される。
このボトルネックを \textbf{Information Island} 問題と呼ぶ。
これにより、ステップ間で冗長な再計算が行われ、ステップ間の一貫性が低下する可能性がある。
これは、凍結したdLLMバックボーンに、シーケンス長に依存しない永続的で固定サイズのワーキングメモリを装備する軽量なリカレント拡張である。
メモリスロットにバックボーンアクティベーションを読み込むクロスアテンションミキサー、デノイングステップ間で情報を統合するGRUスタイルの更新器、更新されたメモリをバックボーンアクティベーションにフィードバックするクロスアテンションインジェクタの3つのトレーニング可能なモジュールで構成されている。
我々はこれらのモジュールを$K$-stepアンロールでトレーニングし、微調整中にマルチステップのデノージングダイナミクスに公開します。
LLaDA-8BとDream-7Bでは、背骨を凍結させながら無視可能なトレーニング可能なパラメータを導入し、凍結ベースラインよりも常に精度を向上する。
これらの結果から, 永続的クロスステップメモリは, 離散拡散言語モデルにおいて, ステップのブリッジ化と生成品質の向上に有効なメカニズムであることが示唆された。
関連論文リスト
- Rejection Mixing: Fast Semantic Propagation of Mask Tokens for Efficient DLLM Inference [58.189320101488725]
DLLMは高速な非自己回帰推論を約束するが、並列デコーディングにおいて厳しい品質と速度のトレードオフを被る。
我々は、連続表現を離散デコードプロセスに統合することでこの問題に対処する。
本稿では,初期マスキング状態と最終復号化トークン状態の中間として,新しい連続混合状態を導入するフレームワークであるReMixを提案する。
論文 参考訳(メタデータ) (2026-02-26T11:08:11Z) - Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models [58.946955321428845]
本研究は自己回帰型モンテカルロ(SMC)を提示する。
提案アルゴリズムは,既存のMDLMのほとんどが信頼性に基づくサンプリング戦略に依存している点に起因している。
粒子重み付けのための自己回帰信号として軌道レベルの信頼性を導入する。
論文 参考訳(メタデータ) (2026-02-02T09:21:45Z) - Streaming-dLLM: Accelerating Diffusion LLMs via Suffix Pruning and Dynamic Decoding [36.74241893088594]
拡散大言語モデル(dLLM)は、自然言語生成に魅力的なパラダイムを提供する。
最近の研究はKVキャッシュの再利用や復号化を通じて推論を加速しているが、ブロックワイド拡散プロセスにおける本質的な非効率性を見落としている。
本稿では,空間次元と時間次元の両方にわたって推論を合理化する学習自由フレームワークStreaming-dLLMを提案する。
論文 参考訳(メタデータ) (2026-01-25T17:36:04Z) - Mosaic: Unlocking Long-Context Inference for Diffusion LLMs via Global Memory Planning and Dynamic Peak Taming [34.16016695663811]
拡散に基づく大規模言語モデル (dLLMs) は,グローバルプランニングと反復的改良を実現するために,同時認知を利用した,有望なパラダイムとして登場した。
既存の推論システムは、厳密なシステム非効率のため、このパラダイムに不適である。
ローカルな静的管理からグローバルな動的パラダイムに移行するメモリ効率のよい推論システムであるMosaicを提案する。
論文 参考訳(メタデータ) (2026-01-10T13:17:08Z) - DynaPURLS: Dynamic Refinement of Part-aware Representations for Skeleton-based Zero-Shot Action Recognition [51.80782323686666]
textbfDynaPURLSは、堅牢でマルチスケールなビジュアル・セマンティック対応を確立する統一的なフレームワークである。
我々のフレームワークは、グローバルな動きと局所的な身体部分のダイナミクスの両方を含む階層的なテキスト記述を生成するために、大きな言語モデルを活用する。
NTU RGB+D 60/120とPKU-MMDを含む3つの大規模ベンチマークデータセットの実験は、DynaPURLSが先行技術よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-12-12T10:39:10Z) - D$^{3}$ToM: Decider-Guided Dynamic Token Merging for Accelerating Diffusion MLLMs [22.78575203353886]
拡散に基づく多モード大言語モデル(拡散MLLM)は自己回帰モデルよりもかなり遅い推論を示す。
本稿では,拡散MLLMにおける推論を高速化する動的トークンマージ手法D$3$ToMを提案する。
実験によると、D$3$ToMは競合性能を維持しながら推論を加速する。
論文 参考訳(メタデータ) (2025-11-15T16:24:12Z) - Continuously Augmented Discrete Diffusion model for Categorical Generative Modeling [87.34677262370924]
標準離散拡散モデルは、吸収[MASK]トークンにそれらをマッピングすることで、すべての観測されていない状態を同一に扱う。
これは'インフォメーション・ヴォイド'を生成します。そこでは、偽のトークンから推測できるセマンティック情報は、デノイングステップの間に失われます。
連続的拡張離散拡散(Continuously Augmented Discrete Diffusion)は、連続的な潜在空間における対拡散で離散状態空間を拡大するフレームワークである。
論文 参考訳(メタデータ) (2025-10-01T18:00:56Z) - Sequential Diffusion Language Models [110.06562906987052]
拡散言語モデル(DLM)は理論効率が強いが、固定長の復号化とキー値キャッシュとの非互換性によって制限される。
次点と次点の予測を統一するNext Sequence Prediction (NSP)を導入する。
本稿では,事前学習した自己回帰言語モデル(ALM)を最小限のコストで再現可能な逐次拡散言語モデル(SDLM)を提案する。
論文 参考訳(メタデータ) (2025-09-28T17:59:15Z) - Unifying Autoregressive and Diffusion-Based Sequence Generation [3.1853022872760186]
拡散に基づくシーケンス生成モデルに対して,自己回帰型言語モデルで行を曖昧にする重要な拡張を提示する。
個別のトークン位置に異なるノイズスケジュールを割り当てるハイパースケジューリングを導入する。
第二に,吸収過程と一様過程の間に介在する2つのハイブリッドトークン単位のノイズ発生過程を提案し,過去の誤りを解消する。
論文 参考訳(メタデータ) (2025-04-08T20:32:10Z) - Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
We present MELLE, a novel continuous-valued token based language modeling approach for text-to-speech synthesis (TTS)。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
MELLEは、サンプリングベクトル量子化符号の固有の欠陥を回避し、ロバスト性問題を緩和する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。