論文の概要: On the Reasoning Abilities of Masked Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2510.13117v1
- Date: Wed, 15 Oct 2025 03:29:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.488204
- Title: On the Reasoning Abilities of Masked Diffusion Language Models
- Title(参考訳): マスケ拡散言語モデルの推論能力について
- Authors: Anej Svete, Ashish Sabharwal,
- Abstract要約: テキストの仮面拡散モデル(MDM)は、従来の自己回帰言語モデルに代わる魅力的な代替手段を提供する。
我々はMDMが確実に解けるような推論問題の種類と効率を特徴付ける。
- 参考スコア(独自算出の注目度): 34.937359931224265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked diffusion models (MDMs) for text offer a compelling alternative to traditional autoregressive language models. Parallel generation makes them efficient, but their computational capabilities and the limitations inherent to their parallelism remain largely unexplored. To this end, we characterize what types of reasoning problems MDMs can provably solve and how efficiently. We do this by connecting MDMs to the well-understood reasoning frameworks of chain of thought (CoT) and padded looped transformers (PLTs) in the finite-precision log-width setting: We show that MDMs and polynomially-padded PLTs are, in fact, equivalent in this setting, and that MDMs can solve all problems that CoT-augmented transformers can. Moreover, we showcase classes of problems (including regular languages) for which MDMs are inherently more efficient than CoT transformers, where parallel generation allows for substantially faster reasoning.
- Abstract(参考訳): テキストの仮面拡散モデル(MDM)は、従来の自己回帰言語モデルに代わる魅力的な代替手段を提供する。
並列生成により効率は向上するが、計算能力と並列性に固有の制限はほとんど未解明のままである。
この目的のために、MDMが確実に解けるような推論問題の種類と、いかに効率的に解決できるかを特徴付ける。
我々は、有限精度の対数幅設定において、MDMをチェーン・オブ・シンキング(CoT)とパッドドループ・トランスフォーマー(PLT)のよく理解された推論フレームワークに接続することで、これを実現している。
さらに、MDMがCoT変換器よりも本質的に効率的である問題(正規言語を含む)のクラスを示す。
関連論文リスト
- Unifying Masked Diffusion Models with Various Generation Orders and Beyond [56.70289720766803]
仮面拡散モデル(MDM)は、言語生成のための自己回帰モデル(ARM)の潜在的な代替品である。
広範な拡散生成過程のための秩序表現型マスク拡散モデル(OeMDM)を提案する。
生成順序と拡散バックボーンを共同で学習する学習順マスク拡散モデル(LoMDM)を導入する。
論文 参考訳(メタデータ) (2026-02-02T13:54:32Z) - Parallelism and Generation Order in Masked Diffusion Language Models: Limits Today, Potential Tomorrow [30.201913054064363]
Masked Diffusion Language Modelsは並列トークン生成と任意の順序復号を約束する。
並列性強度と生成順序の2次元に沿ってMDLMの挙動を特徴付ける。
我々は、知識、推論、プログラミングにまたがる58のベンチマークで8つのメインストリームMDLMを評価した。
論文 参考訳(メタデータ) (2026-01-22T02:39:36Z) - Masked Diffusion Models are Secretly Learned-Order Autoregressive Models [21.17429712617749]
Masked Diffusion Modelsは、トレーニング中にデコード順序を識別し、最適化できることを示す。
これらの命令に対してMDMの目的が正確に重み付けされた自己回帰的損失に分解されることを証明する。
論文 参考訳(メタデータ) (2025-11-24T14:17:56Z) - Beyond Surface Reasoning: Unveiling the True Long Chain-of-Thought Capacity of Diffusion Large Language Models [54.81955614221652]
同時トークン更新を可能にする並列デコード。厳格な推論にしばしば必要とされる因果順序と競合する。
単純な推論タスクと複雑な推論タスクの両方において、DLLMは直接決定可能な出力に対してのみ真の並列性を示すことを示す。
そこで本研究では,PSCによる非効率性と非効率性を低減するために,いくつかの実用的な緩和,並列指向プロンプト,拡散早期停止,並列スケーリングを提案する。
論文 参考訳(メタデータ) (2025-10-10T16:58:14Z) - Any-Order Flexible Length Masked Diffusion [53.89217188409148]
マスク付き拡散モデル(MDMs)は、最近、離散領域上の自己回帰モデルに代わる有望な代替として登場した。
本稿では,フレキシブルマスク付き拡散モデル (FlexMDM) を紹介する。
我々は,FlexMDMがMDMと複雑度を一致させながら,より忠実度の高い長さ統計をモデル化することを示した。
論文 参考訳(メタデータ) (2025-08-31T23:34:53Z) - Multimodal Transformers are Hierarchical Modal-wise Heterogeneous Graphs [11.261099213520158]
マルチモーダル・センティメント・アナリティクス(MSA)は、感情を認識するためにマルチモーダル情報を統合する急速に発展する分野である。
MSAの主な課題はマルチモーダル融合であり、主にマルチモーダル変換器(MulT)によって対処される。
本研究では,MulTsが階層的モーダルワイドなヘテロジニアスグラフ(HMHGs)であることを示すとともに,MulTsのグラフ構造表現パターンを導入する。
このパターンに基づいて,GsiT (Graph-Structued and Interlaced-Masked Multimodal Transformer) を設計するためのInterlaced Mask (IM) 機構を提案する。
論文 参考訳(メタデータ) (2025-05-02T07:18:00Z) - Efficient Reasoning with Hidden Thinking [48.96945580741641]
CoT(Chain-of-Thought)推論は、複雑な問題解決能力を改善するための強力なフレームワークになっています。
我々は,隠された潜在空間におけるCoTの推論を利用した効率的な推論フレームワークであるtextbfHeima$(隠されたラマとして)を提案する。
ハイマモデルは、ゼロショットタスクの精度を維持しつつ、より高い生成効率を達成する。
論文 参考訳(メタデータ) (2025-01-31T15:10:29Z) - R-MTLLMF: Resilient Multi-Task Large Language Model Fusion at the Wireless Edge [78.26352952957909]
マルチタスク大言語モデル(MTLLM)は、ユーザが複数のタスクを効率的に処理するための特殊なモデルを要求する無線エッジにおける多くのアプリケーションにとって重要である。
タスクベクトルによるモデル融合の概念は、MDLLMを生成するための微調整パラメータを組み合わせるための効率的なアプローチとして登場した。
本稿では,最悪の逆攻撃を前提として,エッジユーザがタスクベクトルを介して協調的にMTLMを作成できる問題について検討する。
論文 参考訳(メタデータ) (2024-11-27T10:57:06Z) - Scaling up Masked Diffusion Models on Text [43.16800764711572]
仮面拡散モデル(MDM)は言語モデリングにおいて有望であることを示す。
本稿では,MDMのスケーリングに関する最初の法則を確立する。
我々は、最大11億(B)のパラメータを持つMDMのファミリーをトレーニングし、そのパフォーマンスをより大きなサイズに対して評価する。
論文 参考訳(メタデータ) (2024-10-24T08:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。