論文の概要: Mechanism Shift During Post-training from Autoregressive to Masked Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2601.14758v1
- Date: Wed, 21 Jan 2026 08:26:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.291286
- Title: Mechanism Shift During Post-training from Autoregressive to Masked Diffusion Language Models
- Title(参考訳): 自己回帰からマスク拡散言語モデルへの後学習におけるメカニズムシフト
- Authors: Injin Kong, Hyoungjoon Lee, Yohan Jo,
- Abstract要約: Masked Diffusion Model (MDM) への事前訓練後の自己回帰モデル (ARM) は、逐次生成の限界を克服するための費用対効果の戦略として登場した。
訓練後MDMが真の双方向推論能力を獲得するか、あるいは単に自己回帰剤を再パッケージするかを検討する。
我々は,拡散後学習がモデルパラメータに適応するだけでなく,非逐次的グローバルプランニングを支援するために内部計算を根本的に再構成する,と結論付けた。
- 参考スコア(独自算出の注目度): 12.612647781309098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training pretrained Autoregressive models (ARMs) into Masked Diffusion models (MDMs) has emerged as a cost-effective strategy to overcome the limitations of sequential generation. However, the internal algorithmic transformations induced by this paradigm shift remain unexplored, leaving it unclear whether post-trained MDMs acquire genuine bidirectional reasoning capabilities or merely repackage autoregressive heuristics. In this work, we address this question by conducting a comparative circuit analysis of ARMs and their MDM counterparts. Our analysis reveals a systematic "mechanism shift" dependent on the structural nature of the task. Structurally, we observe a distinct divergence: while MDMs largely retain autoregressive circuitry for tasks dominated by local causal dependencies, they abandon initialized pathways for global planning tasks, exhibiting distinct rewiring characterized by increased early-layer processing. Semantically, we identify a transition from sharp, localized specialization in ARMs to distributed integration in MDMs. Through these findings, we conclude that diffusion post-training does not merely adapt model parameters but fundamentally reorganizes internal computation to support non-sequential global planning.
- Abstract(参考訳): Masked Diffusion Model (MDM) への事前訓練後の自己回帰モデル (ARM) は、逐次生成の限界を克服するための費用対効果の戦略として登場した。
しかし、このパラダイムシフトによって引き起こされる内部アルゴリズム変換は未解明のままであり、訓練後のMDMが真の双方向推論能力を得るか、単に自己回帰的ヒューリスティックスを再パッケージするかは明らかでない。
本研究では,ARM と MDM の比較回路解析を行い,この問題に対処する。
分析の結果,タスクの構造的性質に依存する体系的な「メカニズムシフト」が明らかとなった。
MDMは局所的な因果依存性に支配されるタスクに対して自己回帰回路をほとんど保持するが、グローバルな計画タスクにおいて初期化経路を放棄し、初期層処理の増大を特徴とする異なる切り替えを示す。
直感的には、ARMのシャープでローカライズされた特殊化から、MDMの分散統合への移行を識別する。
これらの結果から,拡散後学習はモデルパラメータに適応するだけでなく,内部計算を根本的に再構成し,非逐次的グローバルプランニングを支援することが示唆された。
関連論文リスト
- DLLM Agent: See Farther, Run Faster [94.74432470237817]
拡散大言語モデル(DLLM)は、自己回帰(AR)デコーディングの代替として、魅力的な効率とモデリング特性を持つ。
我々は、DLLMとARのバックボーンを同一のエージェントワークフロー内でインスタンス化することで、制御された環境でこれを研究する。
DLLMエージェントはARエージェントよりも平均30%以上速く、場合によっては8倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2026-02-07T09:01:18Z) - Step-Wise Refusal Dynamics in Autoregressive and Diffusion Language Models [5.578295626701434]
拡散言語モデル(DLM)は、最近、自己回帰(AR)モデルに代わる有望な代替品として登場した。
本稿では,ARと拡散サンプリングの比較を可能にする,ステップワイズ・リファリング・ダイナミクスの基本的な解析フレームワークを提案する。
本稿では,SRI(Step-Wise Refusal Internal Dynamics)信号について紹介する。
論文 参考訳(メタデータ) (2026-02-01T17:41:32Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - Rethinking Layer-wise Model Merging through Chain of Merges [21.26982153528304]
Chain of Merges(CoM)は、層間で重みを順次マージし、アクティベーション統計を逐次更新するレイヤワイドマージ手順である。
標準ベンチマークの実験では、CoMが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-08-29T08:44:47Z) - DMSC: Dynamic Multi-Scale Coordination Framework for Time Series Forecasting [24.202509006348862]
時系列予測(TSF)は、さまざまなスケールにわたる複雑な時間的依存関係をモデル化する上で、永続的な課題に直面します。
マルチスケールパッチ分解ブロック(EMPD)、トライアドインタラクションブロック(TIB)、適応スケールルーティングMoEブロック(ASR-MoE)を備えた新しい動的マルチスケールコーディネーションフレームワーク(DMSC)を提案する。
EMPDは、指数関数的にスケールした粒度を持つ階層的なパッチにシーケンスを動的に分割する組み込みコンポーネントとして設計されている。
TIBは、各レイヤの分解された表現の中で、パッチ内、パッチ間、およびクロス変数の依存関係を共同でモデル化する。
論文 参考訳(メタデータ) (2025-08-03T13:11:52Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - Distributionally Robust Multi-Agent Reinforcement Learning for Dynamic Chute Mapping [12.78977546421283]
Amazonのロボット倉庫では、行き先とシュートをマッピングする問題は、効率的なパッケージソートに不可欠である。
本稿では,誘導率の逆方向変動に耐性のある宛先間マッピングポリシを学習する,分散ロバストなマルチエージェント強化学習フレームワークを提案する。
DRMARLは,様々な誘導分布が存在する場合の堅牢なシュートマッピングを実現し,シミュレーションシナリオにおけるパッケージ再循環を平均80%低減することを示す。
論文 参考訳(メタデータ) (2025-03-12T18:56:25Z) - Transformers Use Causal World Models in Maze-Solving Tasks [49.67445252528868]
我々は迷路解決タスクで訓練されたトランスフォーマーで世界モデルを特定する。
機能を抑圧するよりも、機能をアクティベートする方が簡単であることが分かりました。
位置符号化方式は、モデルの残留ストリーム内でのワールドモデルがどのように構成されているかに影響を与えるように見える。
論文 参考訳(メタデータ) (2024-12-16T15:21:04Z) - Beyond Autoregression: Discrete Diffusion for Complex Reasoning and Planning [89.96284387376119]
拡散モデルが自己回帰的アプローチを損なう困難なサブゴールをどのように学習するかを示す。
本稿では,学習時の難易度に基づいてサブゴールを優先する多粒度拡散モデリング(MGDM)を提案する。
MGDMは検索手法を使わずに自己回帰モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-10-18T03:48:53Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - WAVE: Weighted Autoregressive Varying Gate for Time Series Forecasting [9.114664059026767]
本稿では,AR(Autoregressive Varying GatE attention mechanism)とMA(Moving-average)を併用した重み付き自己回帰Varying GatEアテンション機構を提案する。
様々な注意機構に適応し、時系列データの中で長距離および局所的な時間パターンをキャプチャする能力を強化し、分離することができる。
論文 参考訳(メタデータ) (2024-10-04T05:45:50Z) - Bellman Diffusion: Generative Modeling as Learning a Linear Operator in the Distribution Space [72.52365911990935]
本稿では,MDPの線形性を維持する新しいDGMフレームワークであるBellman Diffusionを紹介する。
この結果から,ベルマン拡散は分布RLタスクにおける従来のヒストグラムベースベースラインよりも1.5倍高速に収束し,精度の高い画像生成装置であることがわかった。
論文 参考訳(メタデータ) (2024-10-02T17:53:23Z) - Probabilistic Traffic Forecasting with Dynamic Regression [15.31488551912888]
本稿では,交通予測における誤り過程の学習を取り入れた動的回帰(DR)フレームワークを提案する。
このフレームワークは、行列構造自己回帰(AR)モデルを用いてベースモデルのエラー系列をモデル化することにより、時間独立の仮定を緩和する。
新たに設計された損失関数は、非等方的誤差項の確率に基づいており、モデルがベースモデルの元の出力を保持しながら確率的予測を生成することができる。
論文 参考訳(メタデータ) (2023-01-17T01:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。