論文の概要: Tree-Guided Diffusion Planner
- arxiv url: http://arxiv.org/abs/2508.21800v1
- Date: Fri, 29 Aug 2025 17:27:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.133309
- Title: Tree-Guided Diffusion Planner
- Title(参考訳): ツリーガイド拡散プランナ
- Authors: Hyeonseong Jeon, Cheolhong Min, Jaesik Park,
- Abstract要約: 事前訓練された拡散を伴う計画がテストタイム誘導制御問題を解決するための有望なアプローチとして浮上した。
本稿では、構造生成による探索と利用のバランスをとるツリー拡散プランナ(TDP)を提案する。
- 参考スコア(独自算出の注目度): 31.664192839205608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Planning with pretrained diffusion models has emerged as a promising approach for solving test-time guided control problems. However, standard gradient guidance typically performs optimally under convex and differentiable reward landscapes, showing substantially reduced effectiveness in real-world scenarios involving non-convex objectives, non-differentiable constraints, and multi-reward structures. Furthermore, recent supervised planning approaches require task-specific training or value estimators, which limits test-time flexibility and zero-shot generalization. We propose a Tree-guided Diffusion Planner (TDP), a zero-shot test-time planning framework that balances exploration and exploitation through structured trajectory generation. We frame test-time planning as a tree search problem using a bi-level sampling process: (1) diverse parent trajectories are produced via training-free particle guidance to encourage broad exploration, and (2) sub-trajectories are refined through fast conditional denoising guided by task objectives. TDP addresses the limitations of gradient guidance by exploring diverse trajectory regions and harnessing gradient information across this expanded solution space using only pretrained models and test-time reward signals. We evaluate TDP on three diverse tasks: maze gold-picking, robot arm block manipulation, and AntMaze multi-goal exploration. TDP consistently outperforms state-of-the-art approaches on all tasks. The project page can be found at: tree-diffusion-planner.github.io.
- Abstract(参考訳): 事前訓練された拡散モデルによる計画は、テスト時間誘導制御問題を解決するための有望なアプローチとして現れてきた。
しかし、標準的な勾配誘導は、典型的には凸および微分可能な報酬景観の下で最適に実行され、非凸目的、微分不可能制約、マルチリワード構造を含む実世界のシナリオにおいて、大幅に効果を低下させる。
さらに、最近の教師付き計画手法では、テスト時の柔軟性とゼロショットの一般化を制限するタスク固有のトレーニングや価値推定器が必要となる。
本稿では,木誘導拡散プランナ(TDP)を提案する。これはゼロショットテスト時間計画フレームワークで,構造化軌道生成による探索と利用のバランスをとる。
本研究では,2段階サンプリングプロセスを用いた木探索問題として,(1)訓練不要粒子誘導による多様な親軌道が生成され,(2)タスク目標によって誘導される高速な条件記述によりサブ軌道が洗練される。
TDPは、様々な軌道領域を探索し、事前訓練されたモデルとテスト時間報酬信号のみを用いて、この拡張された解空間にわたる勾配情報を活用することによって、勾配誘導の限界に対処する。
我々は,maze Gold-picking,ロボットアームブロック操作,AntMazeマルチゴール探索の3つのタスクでTDPを評価した。
TDPはあらゆるタスクにおける最先端のアプローチを一貫して上回る。
プロジェクトのページは、tree-diffusion-planner.github.ioにある。
関連論文リスト
- Generative Trajectory Stitching through Diffusion Composition [29.997765496994457]
CompDiffuserは、これまで見てきたタスクから短い軌跡を合成的に縫い合わせることで、新しいタスクを解決できる新しい生成的アプローチである。
我々は,さまざまな環境サイズ,エージェント状態次元,軌道タイプ,データ品質のトレーニングなど,さまざまな課題のベンチマークタスクについて実験を行い,CompDiffuserが既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-03-07T05:22:52Z) - Training-Free Guidance Beyond Differentiability: Scalable Path Steering with Tree Search in Diffusion and Flow Models [39.13996838237359]
TreeG: Tree Search-Based Path Steering Guidanceを提案する。
TreeGは、各ステップで候補を提案し、評価し、選択することで、トレーニング不要のガイダンスのための統一されたフレームワークを提供する。
実験の結果,TreeGはシンボリック・ミュージック・ジェネレーション,小分子設計,エンハンサーDNA設計において,トップ・ガイダンス・ベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-02-17T04:20:39Z) - Diffusion Meets Options: Hierarchical Generative Skill Composition for Temporally-Extended Tasks [12.239868705130178]
線形時間論理(LTL)によって規定された命令に基づいて計画の生成と更新を行うデータ駆動階層型フレームワークを提案する。
提案手法は,オフラインの非専門家データセットから階層的強化学習を用いて,時間的タスクを選択肢の連鎖に分解する。
バッチ生成における行列誘導後サンプリング手法を考案し,拡散生成オプションの速度と多様性を向上する。
論文 参考訳(メタデータ) (2024-10-03T11:10:37Z) - DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - Semi-Supervised Temporal Action Detection with Proposal-Free Masking [134.26292288193298]
PropOsal-free Temporal mask (SPOT) に基づく新しい半教師付き時間行動検出モデルを提案する。
SPOTは最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2022-07-14T16:58:47Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - PlanGAN: Model-based Planning With Sparse Rewards and Multiple Goals [14.315501760755609]
PlanGANは、スパース報酬のある環境におけるマルチゴールタスクを解くためのモデルベースのアルゴリズムである。
本研究は,PlanGANが4~8倍の効率で,同等の性能を達成できることを示唆する。
論文 参考訳(メタデータ) (2020-06-01T12:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。