論文の概要: Rethinking Token Prediction: Tree-Structured Diffusion Language Model
- arxiv url: http://arxiv.org/abs/2604.03537v1
- Date: Sat, 04 Apr 2026 01:19:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.628416
- Title: Rethinking Token Prediction: Tree-Structured Diffusion Language Model
- Title(参考訳): Token予測の再考:木構造拡散言語モデル
- Authors: Zihao Wu, Haoming Yang, Juncheng Dong, Vahid Tarokh,
- Abstract要約: トークンの祖先ノードに対応する潜在状態を持つ木構造拡散言語モデルを構築した。
本手法は,最先端の離散拡散言語モデルのパープレキシティ性能に適合しながら,ピークGPUメモリ使用量を半減する。
- 参考スコア(独自算出の注目度): 17.568195527860155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discrete diffusion language models have emerged as a competitive alternative to auto-regressive language models, but training them efficiently under limited parameter and memory budgets remains challenging. Modern architectures are predominantly based on a full-vocabulary token prediction layer, which accounts for a substantial fraction of model parameters (e.g., more than 20% in small scale DiT-style designs) and often dominates peak GPU memory usage. This leads to inefficient use of both parameters and memory under constrained training resources. To address this issue, we revisit the necessity of explicit full-vocabulary prediction, and instead exploit the inherent structure among tokens to build a tree-structured diffusion language model. Specifically, we model the diffusion process with intermediate latent states corresponding to a token's ancestor nodes in a pre-constructed vocabulary tree. This tree-structured factorization exponentially reduces the classification dimensionality, makes the prediction head negligible in size, and enables reallocation of parameters to deepen the attention blocks. Empirically, under the same parameter budget, our method reduces peak GPU memory usage by half while matching the perplexity performance of state-of-the-art discrete diffusion language models.
- Abstract(参考訳): 離散拡散言語モデルは自動回帰言語モデルの競合的代替として登場したが、パラメータやメモリの予算が限られているため、それらを効率的に訓練することは依然として困難である。
現代のアーキテクチャは、主にフルボキャブラリトークン予測層に基づいており、モデルパラメータのかなりの部分を占める(例:小規模のDiTスタイルの設計では20%以上)。
これにより、制約のあるトレーニングリソースの下でパラメータとメモリの両方を非効率に使用することができる。
この問題に対処するために、明示的な全語彙予測の必要性を再考し、代わりにトークン間の固有の構造を利用して木構造拡散言語モデルを構築する。
具体的には、あらかじめ構築された語彙木において、トークンの祖先ノードに対応する中間潜在状態の拡散過程をモデル化する。
この木構造因子化は、分類次元を指数関数的に減らし、予測ヘッドのサイズを無視し、パラメータの移動によって注意ブロックをより深くすることができる。
実験的には同じパラメータ予算の下では、最先端の離散拡散言語モデルのパープレキシティ性能を一致させながら、ピークGPUメモリ使用量を半減する。
関連論文リスト
- Memory-based Language Models: An Efficient, Explainable, and Eco-friendly Approach to Large Language Modeling [0.4411777886421431]
我々は、ディープニューラルネットワークに基づく言語モデリングの代替として、メモリベースの言語モデリングを効率的でエコフレンドリな代替として提示する。
ログ線形でスケーラブルな次世代の予測性能と強力な記憶機能を提供する。
論文 参考訳(メタデータ) (2025-10-25T14:34:18Z) - Context-level Language Modeling by Learning Predictive Context Embeddings [79.00607069677393]
textbfContextLMは、固有のtextbfnext-context予測目標で標準事前学習を強化するフレームワークである。
このメカニズムは、将来のトークンチャンクから派生したエラー信号を利用して、マルチトークンコンテキストの予測表現を学ぶようモデルを訓練する。
GPT2およびPythiaモデルファミリーの実験では、1.5ドルBのパラメータまでスケールし、ContextLMがパープレキシティとダウンストリームのタスクパフォーマンスの両方で一貫した改善を提供することを示した。
論文 参考訳(メタデータ) (2025-10-23T07:09:45Z) - Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。
LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - Towards A Unified View of Sparse Feed-Forward Network in Pretraining
Large Language Model [58.9100867327305]
大規模かつスパースなフィードフォワード層(S-FFN)は、大きな言語モデルをテキスト処理するためにTransformersモデルのサイズをスケールアップするのに有効であることが証明されている。
我々は,S-FFNの2つの主要な設計選択,すなわち,メモリブロックのサイズとメモリブロックの選択方法について分析した。
言語モデルの事前学習において,より単純な選択方法である textbftextttAvg-K が得られた。
論文 参考訳(メタデータ) (2023-05-23T12:28:37Z) - Compressing Sentence Representation with maximum Coding Rate Reduction [0.0]
ほとんどの自然言語推論問題では、文表現は意味検索タスクに必要である。
スペースとハードウェアの制限のため、より小さなモデルを使用する場合には、同等の結果を得る必要がある。
複雑性と文埋め込みサイズを低減した新しい言語モデルは,セマンティック検索ベンチマークにおいて同等の結果が得られることを実証した。
論文 参考訳(メタデータ) (2023-04-25T09:23:43Z) - A Sparsity-promoting Dictionary Model for Variational Autoencoders [16.61511959679188]
深層生成モデルにおける潜伏空間の構造化は、より表現力のあるモデルと解釈可能な表現を得るために重要である。
本稿では,空間の空間構造をスパーシティ・プロモーティング・辞書・モデルを用いて簡易かつ効果的に構築する手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T17:13:11Z) - Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。
言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文 参考訳(メタデータ) (2022-01-08T00:47:50Z) - Adaptive Semiparametric Language Models [17.53604394786977]
本稿では,大規模パラメトリックニューラルネットワーク(トランスフォーマー)と非パラメトリックエピソードメモリコンポーネントを組み合わせた言語モデルを提案する。
単語ベースおよび文字ベース言語モデリングデータセットの実験により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-02-04T11:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。