論文の概要: Compositional Visual Planning via Inference-Time Diffusion Scaling
- arxiv url: http://arxiv.org/abs/2603.02646v1
- Date: Tue, 03 Mar 2026 06:24:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.847557
- Title: Compositional Visual Planning via Inference-Time Diffusion Scaling
- Title(参考訳): 推論時間拡散スケーリングによる構成的視覚計画
- Authors: Yixin Zhang, Yunhao Luo, Utkarsh Aashu Mishra, Woo Chul Shin, Yongxin Chen, Danfei Xu,
- Abstract要約: 短期ホライズンロボット計画において拡散モデルは優れているが、計算制約と限られた訓練データのために長いホライズンタスクにスケールすることは依然として困難である。
安定な構成生成の鍵は、推定されたクリーンデータに対する境界合意を強制することにある。
提案手法は,ビデオチャンクを重畳した連鎖構造因子グラフ上での長軸計画を定式化し,事前学習した短軸ビデオ拡散モデルが局所的な事前情報を提供する。
- 参考スコア(独自算出の注目度): 41.86377754505579
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models excel at short-horizon robot planning, yet scaling them to long-horizon tasks remains challenging due to computational constraints and limited training data. Existing compositional approaches stitch together short segments by separately denoising each component and averaging overlapping regions. However, this suffers from instability as the factorization assumption breaks down in noisy data space, leading to inconsistent global plans. We propose that the key to stable compositional generation lies in enforcing boundary agreement on the estimated clean data (Tweedie estimates) rather than on noisy intermediate states. Our method formulates long-horizon planning as inference over a chain-structured factor graph of overlapping video chunks, where pretrained short-horizon video diffusion models provide local priors. At inference time, we enforce boundary agreement through a novel combination of synchronous and asynchronous message passing that operates on Tweedie estimates, producing globally consistent guidance without requiring additional training. Our training-free framework demonstrates significant improvements over existing baselines, effectively generalizing to unseen start-goal combinations that were not present in the original training data. Project website: https://comp-visual-planning.github.io/
- Abstract(参考訳): 短期ホライズンロボット計画において拡散モデルは優れているが、計算制約と限られた訓練データのために長いホライズンタスクにスケールすることは依然として困難である。
既存の構成アプローチは、各成分を別々に識別し、重なり合う領域を平均化することによって、短いセグメントを縫合する。
しかし、これは、因数分解の仮定がノイズの多いデータ空間で崩壊し、不整合な世界計画に繋がるため不安定に悩まされる。
安定な構成生成の鍵は、ノイズの多い中間状態ではなく、推定されたクリーンデータ(ツイーディー推定)の境界合意を強制することにある。
提案手法は,ビデオチャンクを重畳した連鎖構造因子グラフ上での長軸計画を定式化し,事前学習した短軸ビデオ拡散モデルが局所的な事前情報を提供する。
推論時に、Tweedieの推定に基づいて同期メッセージと非同期メッセージのパッシングを新たに組み合わせることで境界合意を強制し、追加のトレーニングを必要とせず、一貫したガイダンスを生成する。
トレーニングフリーなフレームワークは,既存のベースラインよりも大幅に改善され,本来のトレーニングデータにはない,見つからないスタートゴールの組み合わせに効果的に一般化されている。
プロジェクトウェブサイト: https://comp-visual-planning.github.io/
関連論文リスト
- Amortizing Trajectory Diffusion with Keyed Drift Fields [2.5352713493505785]
キード・ドリフト・ポリシーズ (Keyed Drifting Policies) は、ドリフトフィールドの目標で訓練された1ステップの軌道生成装置である。
生成されたトラジェクトリを条件マッチングされたデータセットウィンドウに反映する。
1ステップの推論で高い性能を達成し、拡散サンプリングよりも計画遅延を大幅に低減する。
論文 参考訳(メタデータ) (2026-03-14T17:56:15Z) - UnLoc: Leveraging Depth Uncertainties for Floorplan Localization [80.55849461031879]
UnLocはフロアプラン内のシーケンシャルカメラローカライゼーションのための効率的なデータ駆動ソリューションである。
本研究では,不確実性推定を組み込んだ新しい確率モデルを導入し,深度予測を明示的な確率分布としてモデル化する。
我々はUnLocを大規模合成および実世界のデータセット上で評価し、精度とロバスト性の観点から大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-09-14T14:45:43Z) - Adaptive Deadline and Batch Layered Synchronized Federated Learning [66.93447103966439]
フェデレートラーニング(FL)は、データプライバシを保持しながら、分散エッジデバイス間で協調的なモデルトレーニングを可能にする。
我々は,レイヤワイドアグリゲーションのために,ラウンド単位の期限とユーザ固有のバッチサイズを共同で最適化する新しいフレームワークADEL-FLを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:59:18Z) - Generative Trajectory Stitching through Diffusion Composition [29.997765496994457]
CompDiffuserは、これまで見てきたタスクから短い軌跡を合成的に縫い合わせることで、新しいタスクを解決できる新しい生成的アプローチである。
我々は,さまざまな環境サイズ,エージェント状態次元,軌道タイプ,データ品質のトレーニングなど,さまざまな課題のベンチマークタスクについて実験を行い,CompDiffuserが既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-03-07T05:22:52Z) - FLARE: A New Federated Learning Framework with Adjustable Learning Rates over Resource-Constrained Wireless Networks [20.048146776405005]
ワイヤレス・フェデレート・ラーニング(WFL)は、データ分散、計算能力、チャネル条件などにおいて不均一性に悩まされている。
本稿では,Federated Learning Adjusted lean ratE (FLR ratE)による新しいアイデアを提案する。
FLAREが一貫してベースラインを上回っている実験。
論文 参考訳(メタデータ) (2024-04-23T07:48:17Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - Compositional Diffusion-Based Continuous Constraint Solvers [98.1702285470628]
本稿では,ロボット推論と計画における連続的制約満足度問題(CCSP)の解法について紹介する。
対照的に、構成拡散連続制約解法(Diffusion-CCSP)は、CCSPに対する大域的な解を導出する。
論文 参考訳(メタデータ) (2023-09-02T15:20:36Z) - $\texttt{FedBC}$: Calibrating Global and Local Models via Federated
Learning Beyond Consensus [66.62731854746856]
フェデレートラーニング(FL)では、デバイス全体にわたるモデル更新の集約を通じて、グローバルモデルを協調的に学習する目的は、ローカル情報を通じたパーソナライズという目標に反対する傾向にある。
本研究では,このトレードオフを多基準最適化により定量的にキャリブレーションする。
私たちは、$texttFedBC$が、スイートデータセット間でグローバルおよびローカルモデルのテスト精度のメトリクスのバランスをとることを実証しています。
論文 参考訳(メタデータ) (2022-06-22T02:42:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。