論文の概要: Can I Have Your Order? Monte-Carlo Tree Search for Slot Filling Ordering in Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2602.12586v1
- Date: Fri, 13 Feb 2026 03:56:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.835649
- Title: Can I Have Your Order? Monte-Carlo Tree Search for Slot Filling Ordering in Diffusion Language Models
- Title(参考訳): 順序付けは可能か? 拡散言語モデルにおけるスロットフィリング順序付けのためのモンテカルロ木探索
- Authors: Joshua Ong Jun Leang, Yu Zhao, Mihaela Cătălina Stoian, Wenda Li, Shay B. Cohen, Eleonora Giunchiglia,
- Abstract要約: 我々はMcDiffuSEについて紹介する。McDiffuSEは、スロットの選択を決定として定式化し、モンテカルロ木探索(MCTS)による命令の入力を最適化するフレームワークである。
実験では、自己回帰ベースラインよりも平均3.2%、ベースラインプラン・アンド・インフィルより8.0%、MBPPでは19.5%、MATH500では4.9%の改善が見られた。
- 参考スコア(独自算出の注目度): 27.434112682973403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While plan-and-infill decoding in Masked Diffusion Models (MDMs) shows promise for mathematical and code reasoning, performance remains highly sensitive to slot infilling order, often yielding substantial output variance. We introduce McDiffuSE, a framework that formulates slot selection as decision making and optimises infilling orders through Monte Carlo Tree Search (MCTS). McDiffuSE uses look-ahead simulations to evaluate partial completions before commitment, systematically exploring the combinatorial space of generation orders. Experiments show an average improvement of 3.2% over autoregressive baselines and 8.0% over baseline plan-and-infill, with notable gains of 19.5% on MBPP and 4.9% on MATH500. Our analysis reveals that while McDiffuSE predominantly follows sequential ordering, incorporating non-sequential generation is essential for maximising performance. We observe that larger exploration constants, rather than increased simulations, are necessary to overcome model confidence biases and discover effective orderings. These findings establish MCTS-based planning as an effective approach for enhancing generation quality in MDMs.
- Abstract(参考訳): Masked Diffusion Models (MDMs) におけるプラン・アンド・インフィルデコーディングは、数学的およびコード推論の可能性を示唆するが、性能はスロットの入出力順序に非常に敏感であり、しばしば実質的な出力分散をもたらす。
我々はMcDiffuSEという,スロットの選択を決定として定式化し,モンテカルロ木探索(MCTS)による命令の入力を最適化するフレームワークを紹介した。
McDiffuSEは、ルックアヘッドシミュレーションを使用して、コミット前に部分的な完了を評価し、生成順序の組合せ空間を体系的に探索する。
実験では、自己回帰ベースラインよりも平均3.2%、ベースラインプラン・アンド・インフィルより8.0%、MBPPでは19.5%、MATH500では4.9%の改善が見られた。
解析の結果,McDiffuSEは逐次順序付けに大きく従っているが,非逐次生成を組み込むことは性能の最大化に不可欠であることがわかった。
モデル信頼性バイアスを克服し、効果的な順序付けを発見するためには、シミュレーションの増加よりもより大きな探索定数が必要であることを観察する。
これらの結果から,MCTSをベースとしたプランニングがMDMの生成品質向上に有効な方法であることが確認された。
関連論文リスト
- Tuning the Implicit Regularizer of Masked Diffusion Language Models: Enhancing Generalization via Insights from $k$-Parity [29.467658072159114]
Masked Diffusion Language Modelsは、最近強力な生成パラダイムとして登場した。
本研究では、これらの性質を$k$-parity問題の設定内で検討する。
MD目標を$k$-parity問題に適用してナノGPTをトレーニングすることにより,MD目標が学習環境を根本的に変えることを示す。
論文 参考訳(メタデータ) (2026-01-30T01:36:00Z) - Masked Diffusion Models are Secretly Learned-Order Autoregressive Models [21.17429712617749]
Masked Diffusion Modelsは、トレーニング中にデコード順序を識別し、最適化できることを示す。
これらの命令に対してMDMの目的が正確に重み付けされた自己回帰的損失に分解されることを証明する。
論文 参考訳(メタデータ) (2025-11-24T14:17:56Z) - From Static to Dynamic: Adaptive Monte Carlo Search for Mathematical Process Supervision [49.59309446816251]
既存手法は, 定予算サンプリング戦略に基づいて, 推論ステップの質を推定する。
本稿では,データ生成を静的から適応に変換するフレームワークであるAdaptive Monte Carlo Search (AMCS)を提案する。
AMCSは、より多くのサンプルを不確実な推論ステップに割り当てることによって、予測を適応的に洗練し、予測しやすくする。
論文 参考訳(メタデータ) (2025-09-29T06:52:35Z) - ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [75.72672339168092]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。