論文の概要: Mechanism Shift During Post-training from Autoregressive to Masked Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2601.14758v1
- Date: Wed, 21 Jan 2026 08:26:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.291286
- Title: Mechanism Shift During Post-training from Autoregressive to Masked Diffusion Language Models
- Title(参考訳): 自己回帰からマスク拡散言語モデルへの後学習におけるメカニズムシフト
- Authors: Injin Kong, Hyoungjoon Lee, Yohan Jo,
- Abstract要約: Masked Diffusion Model (MDM) への事前訓練後の自己回帰モデル (ARM) は、逐次生成の限界を克服するための費用対効果の戦略として登場した。
訓練後MDMが真の双方向推論能力を獲得するか、あるいは単に自己回帰剤を再パッケージするかを検討する。
我々は,拡散後学習がモデルパラメータに適応するだけでなく,非逐次的グローバルプランニングを支援するために内部計算を根本的に再構成する,と結論付けた。
- 参考スコア(独自算出の注目度): 12.612647781309098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training pretrained Autoregressive models (ARMs) into Masked Diffusion models (MDMs) has emerged as a cost-effective strategy to overcome the limitations of sequential generation. However, the internal algorithmic transformations induced by this paradigm shift remain unexplored, leaving it unclear whether post-trained MDMs acquire genuine bidirectional reasoning capabilities or merely repackage autoregressive heuristics. In this work, we address this question by conducting a comparative circuit analysis of ARMs and their MDM counterparts. Our analysis reveals a systematic "mechanism shift" dependent on the structural nature of the task. Structurally, we observe a distinct divergence: while MDMs largely retain autoregressive circuitry for tasks dominated by local causal dependencies, they abandon initialized pathways for global planning tasks, exhibiting distinct rewiring characterized by increased early-layer processing. Semantically, we identify a transition from sharp, localized specialization in ARMs to distributed integration in MDMs. Through these findings, we conclude that diffusion post-training does not merely adapt model parameters but fundamentally reorganizes internal computation to support non-sequential global planning.
- Abstract(参考訳): Masked Diffusion Model (MDM) への事前訓練後の自己回帰モデル (ARM) は、逐次生成の限界を克服するための費用対効果の戦略として登場した。
しかし、このパラダイムシフトによって引き起こされる内部アルゴリズム変換は未解明のままであり、訓練後のMDMが真の双方向推論能力を得るか、単に自己回帰的ヒューリスティックスを再パッケージするかは明らかでない。
本研究では,ARM と MDM の比較回路解析を行い,この問題に対処する。
分析の結果,タスクの構造的性質に依存する体系的な「メカニズムシフト」が明らかとなった。
MDMは局所的な因果依存性に支配されるタスクに対して自己回帰回路をほとんど保持するが、グローバルな計画タスクにおいて初期化経路を放棄し、初期層処理の増大を特徴とする異なる切り替えを示す。
直感的には、ARMのシャープでローカライズされた特殊化から、MDMの分散統合への移行を識別する。
これらの結果から,拡散後学習はモデルパラメータに適応するだけでなく,内部計算を根本的に再構成し,非逐次的グローバルプランニングを支援することが示唆された。
関連論文リスト
- The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - Rethinking Layer-wise Model Merging through Chain of Merges [21.26982153528304]
Chain of Merges(CoM)は、層間で重みを順次マージし、アクティベーション統計を逐次更新するレイヤワイドマージ手順である。
標準ベンチマークの実験では、CoMが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-08-29T08:44:47Z) - Beyond Autoregression: Discrete Diffusion for Complex Reasoning and Planning [89.96284387376119]
拡散モデルが自己回帰的アプローチを損なう困難なサブゴールをどのように学習するかを示す。
本稿では,学習時の難易度に基づいてサブゴールを優先する多粒度拡散モデリング(MGDM)を提案する。
MGDMは検索手法を使わずに自己回帰モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-10-18T03:48:53Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - WAVE: Weighted Autoregressive Varying Gate for Time Series Forecasting [9.114664059026767]
本稿では,AR(Autoregressive Varying GatE attention mechanism)とMA(Moving-average)を併用した重み付き自己回帰Varying GatEアテンション機構を提案する。
様々な注意機構に適応し、時系列データの中で長距離および局所的な時間パターンをキャプチャする能力を強化し、分離することができる。
論文 参考訳(メタデータ) (2024-10-04T05:45:50Z) - Bellman Diffusion: Generative Modeling as Learning a Linear Operator in the Distribution Space [72.52365911990935]
本稿では,MDPの線形性を維持する新しいDGMフレームワークであるBellman Diffusionを紹介する。
この結果から,ベルマン拡散は分布RLタスクにおける従来のヒストグラムベースベースラインよりも1.5倍高速に収束し,精度の高い画像生成装置であることがわかった。
論文 参考訳(メタデータ) (2024-10-02T17:53:23Z) - Probabilistic Traffic Forecasting with Dynamic Regression [15.31488551912888]
本稿では,交通予測における誤り過程の学習を取り入れた動的回帰(DR)フレームワークを提案する。
このフレームワークは、行列構造自己回帰(AR)モデルを用いてベースモデルのエラー系列をモデル化することにより、時間独立の仮定を緩和する。
新たに設計された損失関数は、非等方的誤差項の確率に基づいており、モデルがベースモデルの元の出力を保持しながら確率的予測を生成することができる。
論文 参考訳(メタデータ) (2023-01-17T01:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。