論文の概要: Next Semantic Scale Prediction via Hierarchical Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2510.08632v1
- Date: Wed, 08 Oct 2025 17:41:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.222179
- Title: Next Semantic Scale Prediction via Hierarchical Diffusion Language Models
- Title(参考訳): 階層的拡散言語モデルによる次のセマンティックスケール予測
- Authors: Cai Zhou, Chenyu Wang, Dinghuai Zhang, Shangyuan Tong, Yifei Wang, Stephen Bates, Tommi Jaakkola,
- Abstract要約: HDLMは階層的な語彙の上に構築されており、細かな意味を持つ低レベルのトークンは、粗い粒度の意味を持つ高レベルのトークンに全射的にマッピングされる。
前処理では、各トークンは、スケジューラに従ってより抽象的なセマンティクスを持つ上位の祖先に独立に摂動される。
逆のプロセスでは、モデルは次のより詳細なセマンティクスを徐々に予測します。
- 参考スコア(独自算出の注目度): 31.562156001116673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we introduce Hierarchical Diffusion Language Models (HDLM) -- a novel family of discrete diffusion models for language modeling. HDLM builds on a hierarchical vocabulary where low-level tokens with detailed semantics are surjectively mapped to high-level tokens with coarse-grained meanings. In the forward process, each token is independently perturbed to its higher-level ancestor with more abstract semantics according to the scheduler, while in the reverse process the model progressively predicts the next, more detailed semantics. Taken together, HDLM provides a general time-varying next semantic scale prediction process for language modeling. We derive closed-form expressions for the diffusion Evidence Lower Bound (ELBO), and show that HDLM can be implemented in a flexible manner while including the existing MDLM as a special case. We also propose practical training techniques based on the insights. Extensive text generation experiments validate the effectiveness of HDLM, which demonstrates consistently lower validation and generative perplexity than baselines.
- Abstract(参考訳): 本稿では,階層拡散言語モデル (HDLM) を紹介する。
HDLMは階層的な語彙の上に構築されており、細かな意味を持つ低レベルのトークンは、粗い粒度の意味を持つ高レベルのトークンに全射的にマッピングされる。
前方のプロセスでは、各トークンはスケジューラに従ってより抽象的なセマンティクスを持つ上位の祖先に独立に摂動され、逆のプロセスでは、モデルは次のより詳細なセマンティクスを徐々に予測する。
まとめると、HDLMは言語モデリングのための一般的な時間変化の次のセマンティックスケール予測プロセスを提供する。
拡散エビデンス下界(ELBO)の閉形式式を導出し,既存のMDLMを特殊なケースとして含めて,HDLMを柔軟に実装可能であることを示す。
また,この知見に基づく実践的なトレーニング手法を提案する。
大規模なテキスト生成実験はHDLMの有効性を検証し、ベースラインよりも一貫して検証と生成の難易度を低下させる。
関連論文リスト
- Adapting LLMs to Time Series Forecasting via Temporal Heterogeneity Modeling and Semantic Alignment [32.41581846555808]
大規模言語モデル(LLM)は、最近、自然言語処理における印象的な能力を実証した。
時間的アライメントのモデル化と意味的アライメントの強化によりLLMに基づく予測を強化する統合フレームワークであるTALONを提案する。
7つの実世界のベンチマークの実験では、TALONはすべてのデータセットで優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2025-08-10T06:06:19Z) - Discrete Diffusion in Large Language and Multimodal Models: A Survey [61.86669998363359]
離散拡散言語モデル(dLLMs)と離散拡散多モード言語モデル(dMLLMs)の体系的調査を行う。
自己回帰(AR)モデルとは異なり、dLLMsとdMLLMsはマルチトークンの並列デコーディングパラダイムを採用しており、フルアテンションとデノナイジングに基づく生成戦略を採用している。
我々は、dLLMとdMLLMの歴史的発展を辿り、基礎となる数学的枠組みを定式化し、一般的なモデリング手法を列挙し、代表モデルを分類する。
論文 参考訳(メタデータ) (2025-06-16T17:59:08Z) - DLM-One: Diffusion Language Models for One-Step Sequence Generation [63.43422118066493]
DLM-Oneは連続拡散言語モデルを用いた1ステップシーケンス生成のためのスコア蒸留ベースのフレームワークである。
DLM-Oneが言語モデリングにおけるサンプリング効率を大幅に向上できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-05-30T22:42:23Z) - Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens [66.02261367232256]
MLLM(Multimodal Large Language Models)は、視覚的理解と生成を統一することを目的としている。
既存のアプローチは空間的トークンに依存しており、画像パッチは空間的順序に応じてエンコードされ配置される。
本稿では,個別の視覚トークンを学習するために拡散時間ステップを再構成し,適切な視覚言語を構築する。
論文 参考訳(メタデータ) (2025-04-20T16:14:28Z) - Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics [50.982315553104975]
本稿では,Llama2という人気言語モデルに対する語彙意味論のボトムアップ進化について検討する。
実験の結果,下位層の表現は語彙的意味論を符号化しているが,上位層はより弱い意味帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰属的帰属的帰属的帰属的存在であることがわかった。
これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。
論文 参考訳(メタデータ) (2024-03-03T13:14:47Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。