論文の概要: Monte Carlo Tree Diffusion for System 2 Planning
- arxiv url: http://arxiv.org/abs/2502.07202v6
- Date: Sun, 13 Jul 2025 08:21:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 14:36:06.832772
- Title: Monte Carlo Tree Diffusion for System 2 Planning
- Title(参考訳): モンテカルロ木拡散とシステム2計画
- Authors: Jaesik Yoon, Hyeonseo Cho, Doojin Baek, Yoshua Bengio, Sungjin Ahn,
- Abstract要約: モンテカルロ木探索(MCTS)の適応探索機能と拡散モデルの生成強度を統合する新しいフレームワークであるモンテカルロ木拡散(MCTD)を紹介する。
本手法は,木構造化プロセスとしてデノナイジングを再認識し,部分的にデノナイジングした計画を反復的に評価し,刈り取り,精錬する。
- 参考スコア(独自算出の注目度): 57.50512800900167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have recently emerged as a powerful tool for planning. However, unlike Monte Carlo Tree Search (MCTS)-whose performance naturally improves with inference-time computation scaling-standard diffusion-based planners offer only limited avenues for the scalability. In this paper, we introduce Monte Carlo Tree Diffusion (MCTD), a novel framework that integrates the generative strength of diffusion models with the adaptive search capabilities of MCTS. Our method reconceptualizes denoising as a tree-structured process, allowing partially denoised plans to be iteratively evaluated, pruned, and refined. By selectively expanding promising trajectories while retaining the flexibility to revisit and improve suboptimal branches, MCTD achieves the benefits of MCTS such as controlling exploration-exploitation trade-offs within the diffusion framework. Empirical results on challenging long-horizon tasks show that MCTD outperforms diffusion baselines, yielding higher-quality solutions as inference-time computation increases.
- Abstract(参考訳): 拡散モデルは、最近、計画のための強力なツールとして現れました。
しかし、モンテカルロ木探索(MCTS)とは異なり、推論時間計算のスケーリング標準拡散ベースのプランナーはスケーラビリティの限られた道しか提供しないため、自然にパフォーマンスが向上する。
本稿では,拡散モデルの生成強度とMCTSの適応探索能力を統合する新しいフレームワークであるモンテカルロ木拡散(MCTD)を紹介する。
本手法は,木構造化プロセスとしてデノナイジングを再認識し,部分的にデノナイジングした計画を反復的に評価し,刈り取り,精錬する。
MCTDは, 予測軌道を選択的に拡張し, 再検討・改善の柔軟性を維持しつつ, 拡散フレームワーク内での探索・探索トレードオフの制御などのMCTSの利点を享受する。
長期的課題に対する実証的な結果から,MCTDは拡散ベースラインを上回り,推論時間計算が増加するにつれて高品質な解が得られることが示された。
関連論文リスト
- Elucidated Rolling Diffusion Models for Probabilistic Weather Forecasting [52.6508222408558]
Eucidated Rolling Diffusion Models (ERDM)を紹介する。
ERDMはEucidated Diffusion Models (EDM) の原理的, 性能的設計とローリング予測構造を統一する最初のフレームワークである
2D Navier-StokesシミュレーションとERA5グローバル気象予報の1.5円解像度では、ERDMはキー拡散ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-06-24T21:44:31Z) - Fast Monte Carlo Tree Diffusion: 100x Speedup via Parallel Sparse Planning [61.694143925237206]
最近提案されたモンテカルロ木拡散(MCTD)は,木に基づく探索と拡散を組み合わせて,有望な解を提供する。
Fast-MCTDは、遅延ツリー更新と冗長性認識による並列ロールアウトを可能にするParallel MCTDと、軌道粗大化によるロールアウト長の削減を行うSparse MCTDの2つの技術を統合する。
実験により、Fast-MCTDは標準MCTDよりも最大100倍の高速化を実現し、計画性能を維持または改善した。
論文 参考訳(メタデータ) (2025-06-11T08:17:40Z) - Test-Time Alignment of Discrete Diffusion Models with Sequential Monte Carlo [19.81513273510523]
本研究では,SMC(Sequential Monte Carlo)をベースとしたトレーニングフリー手法を提案する。
提案手法は, 報酬関数の1次テイラー展開により得られる局所的最適提案をツイストしたSMCを利用する。
離散空間における不定義勾配の挑戦に対処するために、Gumbel-Softmax 緩和を導入し、離散生成フレームワーク内で効率的な勾配に基づく近似を可能にする。
論文 参考訳(メタデータ) (2025-05-28T16:12:03Z) - Trust-Region Twisted Policy Improvement [8.73717644648873]
モンテカルロ木探索(MCTS)は、近年の深層強化学習(RL)におけるブレークスルーを招いている。
我々は、制約された動作サンプリングと明示的な端末状態ハンドリングを通じて、プランナー内のデータ生成を改善することにより、RLに特化したモンテカルロプランナーをカスタマイズする。
これによってTrust-Region Twisted SMC (TRT-SMC) が実現し,個別ドメインと連続ドメインの両方において,ベースラインMCTSおよびSMCメソッドのランタイムおよびサンプル効率が改善された。
論文 参考訳(メタデータ) (2025-04-08T13:47:07Z) - Adding Additional Control to One-Step Diffusion with Joint Distribution Matching [58.37264951734603]
JDMは、画像-条件関節分布間の逆KL分散を最小化する新しいアプローチである。
トラクタブルな上限を導出することにより、JDMは条件学習から忠実度学習を分離する。
この非対称蒸留方式により,一段階の生徒が教師モデルに未知の制御を処理できるようになる。
論文 参考訳(メタデータ) (2025-03-09T15:06:50Z) - Towards Widening The Distillation Bottleneck for Reasoning Models [39.22557129190619]
LRMの生成したデータに基づく蒸留は、より小さなモデルの推論能力を高めるための、単純かつ効果的な方法である。
蒸留された長いCoTデータは、小さなモデルでは学習が困難であり、バイアスの継承につながることがわかった。
我々はモンテカルロ木探索を用いて木に基づくCOTデータを構築することを提案する。
論文 参考訳(メタデータ) (2025-03-03T12:17:36Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - T-SCEND: Test-time Scalable MCTS-enhanced Diffusion Model [7.250494262573953]
Test-time Scalable MCTS-enhanced Diffusion Model (T-SCEND)は拡散モデルの推論能力を大幅に改善する新しいフレームワークである。
T-SCENDは、デノナイジングプロセスと、新しいハイブリッドモンテカルロツリーサーチを統合している。
本稿では,T-SCENDの学習目標とスケーラブルな推論手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-02-04T04:07:48Z) - Boosting MCTS with Free Energy Minimization [0.0]
我々はモンテカルロ木探索(MCTS)をアクティブな推論対象と統合する新しい計画フレームワークを提案する。
MCTSは、期待される報酬と情報ゲインをブレンドすることで、自由エネルギーの最小化を組み込むように自然に拡張することができる。
このシナジーにより、プランナーは計算的トラクタビリティを犠牲にすることなく、計画全体の価値と不確実性のコヒーレントな見積を維持できる。
論文 参考訳(メタデータ) (2025-01-22T18:45:15Z) - Monte Carlo Planning for Stochastic Control on Constrained Markov Decision Processes [1.445706856497821]
本研究は,MDP フレームワークである textttSD-MDP を定義し,MDP の遷移と報酬ダイナミクスの因果構造を解析する。
モンテカルロサンプリングから独立な値推定を行うことにより、最適ポリシの下での値関数の推定誤差に関する理論的保証を導出する。
論文 参考訳(メタデータ) (2024-06-23T16:22:40Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Spatial Attention-based Distribution Integration Network for Human Pose
Estimation [0.8052382324386398]
本研究では,空間アテンションに基づく分布統合ネットワーク(SADI-NET)を提案する。
我々のネットワークは、受容強化モジュール(RFM)、空間融合モジュール(SFM)、分散学習モジュール(DLM)の3つの効率的なモデルで構成されている。
我々のモデルは、MPIIテストデータセットで920.10%の精度を得、既存のモデルよりも大幅に改善され、最先端のパフォーマンスが確立された。
論文 参考訳(メタデータ) (2023-11-09T12:43:01Z) - Learning Energy-Based Prior Model with Diffusion-Amortized MCMC [89.95629196907082]
非収束短距離MCMCを用いた事前及び後方サンプリングによる潜時空間EMM学習の一般的な実践は、さらなる進歩を妨げている。
本稿では,MCMCサンプリングのための単純だが効果的な拡散型アモータイズ手法を導入し,それに基づく潜時空間EMMのための新しい学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-05T00:23:34Z) - Bayesian Decision Trees Inspired from Evolutionary Algorithms [64.80360020499555]
我々は、マルコフ連鎖モンテカルロ(MCMC)を本質的に並列なアルゴリズムであるシーケンシャルモンテカルロ(SMC)に置き換えることを提案する。
実験により、SMCと進化的アルゴリズム(EA)を組み合わせることで、MCMCの100倍のイテレーションでより正確な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-05-30T06:17:35Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Continuous Monte Carlo Graph Search [61.11769232283621]
連続モンテカルログラフサーチ(Continuous Monte Carlo Graph Search, CMCGS)は、モンテカルログラフサーチ(MCTS)のオンラインプランニングへの拡張である。
CMCGSは、計画中、複数の州で同じ行動方針を共有することで高いパフォーマンスが得られるという洞察を生かしている。
並列化によってスケールアップすることができ、学習力学モデルによる連続制御においてクロスエントロピー法(CEM)よりも優れている。
論文 参考訳(メタデータ) (2022-10-04T07:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。