論文の概要: On the Reasoning Abilities of Masked Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2510.13117v1
- Date: Wed, 15 Oct 2025 03:29:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.488204
- Title: On the Reasoning Abilities of Masked Diffusion Language Models
- Title(参考訳): マスケ拡散言語モデルの推論能力について
- Authors: Anej Svete, Ashish Sabharwal,
- Abstract要約: テキストの仮面拡散モデル(MDM)は、従来の自己回帰言語モデルに代わる魅力的な代替手段を提供する。
我々はMDMが確実に解けるような推論問題の種類と効率を特徴付ける。
- 参考スコア(独自算出の注目度): 34.937359931224265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked diffusion models (MDMs) for text offer a compelling alternative to traditional autoregressive language models. Parallel generation makes them efficient, but their computational capabilities and the limitations inherent to their parallelism remain largely unexplored. To this end, we characterize what types of reasoning problems MDMs can provably solve and how efficiently. We do this by connecting MDMs to the well-understood reasoning frameworks of chain of thought (CoT) and padded looped transformers (PLTs) in the finite-precision log-width setting: We show that MDMs and polynomially-padded PLTs are, in fact, equivalent in this setting, and that MDMs can solve all problems that CoT-augmented transformers can. Moreover, we showcase classes of problems (including regular languages) for which MDMs are inherently more efficient than CoT transformers, where parallel generation allows for substantially faster reasoning.
- Abstract(参考訳): テキストの仮面拡散モデル(MDM)は、従来の自己回帰言語モデルに代わる魅力的な代替手段を提供する。
並列生成により効率は向上するが、計算能力と並列性に固有の制限はほとんど未解明のままである。
この目的のために、MDMが確実に解けるような推論問題の種類と、いかに効率的に解決できるかを特徴付ける。
我々は、有限精度の対数幅設定において、MDMをチェーン・オブ・シンキング(CoT)とパッドドループ・トランスフォーマー(PLT)のよく理解された推論フレームワークに接続することで、これを実現している。
さらに、MDMがCoT変換器よりも本質的に効率的である問題(正規言語を含む)のクラスを示す。
関連論文リスト
- Any-Order Flexible Length Masked Diffusion [53.89217188409148]
マスク付き拡散モデル(MDMs)は、最近、離散領域上の自己回帰モデルに代わる有望な代替として登場した。
本稿では,フレキシブルマスク付き拡散モデル (FlexMDM) を紹介する。
我々は,FlexMDMがMDMと複雑度を一致させながら,より忠実度の高い長さ統計をモデル化することを示した。
論文 参考訳(メタデータ) (2025-08-31T23:34:53Z) - Multimodal Transformers are Hierarchical Modal-wise Heterogeneous Graphs [11.261099213520158]
マルチモーダル・センティメント・アナリティクス(MSA)は、感情を認識するためにマルチモーダル情報を統合する急速に発展する分野である。
MSAの主な課題はマルチモーダル融合であり、主にマルチモーダル変換器(MulT)によって対処される。
本研究では,MulTsが階層的モーダルワイドなヘテロジニアスグラフ(HMHGs)であることを示すとともに,MulTsのグラフ構造表現パターンを導入する。
このパターンに基づいて,GsiT (Graph-Structued and Interlaced-Masked Multimodal Transformer) を設計するためのInterlaced Mask (IM) 機構を提案する。
論文 参考訳(メタデータ) (2025-05-02T07:18:00Z) - R-MTLLMF: Resilient Multi-Task Large Language Model Fusion at the Wireless Edge [78.26352952957909]
マルチタスク大言語モデル(MTLLM)は、ユーザが複数のタスクを効率的に処理するための特殊なモデルを要求する無線エッジにおける多くのアプリケーションにとって重要である。
タスクベクトルによるモデル融合の概念は、MDLLMを生成するための微調整パラメータを組み合わせるための効率的なアプローチとして登場した。
本稿では,最悪の逆攻撃を前提として,エッジユーザがタスクベクトルを介して協調的にMTLMを作成できる問題について検討する。
論文 参考訳(メタデータ) (2024-11-27T10:57:06Z) - Scaling up Masked Diffusion Models on Text [43.16800764711572]
仮面拡散モデル(MDM)は言語モデリングにおいて有望であることを示す。
本稿では,MDMのスケーリングに関する最初の法則を確立する。
我々は、最大11億(B)のパラメータを持つMDMのファミリーをトレーニングし、そのパフォーマンスをより大きなサイズに対して評価する。
論文 参考訳(メタデータ) (2024-10-24T08:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。