論文の概要: Terminal Matters: Kinodynamic Planning with a Terminal Cost and Learned Uncertainty in Belief State-Cost Space
- arxiv url: http://arxiv.org/abs/2605.09046v2
- Date: Wed, 13 May 2026 19:07:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.374922
- Title: Terminal Matters: Kinodynamic Planning with a Terminal Cost and Learned Uncertainty in Belief State-Cost Space
- Title(参考訳): 終末事項:国家コスト空間におけるターミナルコストと不確かさを学習したキノダイナミックプランニング
- Authors: Zhuoyun Zhong, Seyedali Golestaneh, Constantinos Chamzas,
- Abstract要約: 多くの現実世界のロボットタスクでは、ロボットは不確実性の下でも確実に望ましい目標に達するような、実現可能な動作を作らなければならない。
そこで,キノダイナミック計画のための端末コスト定式化を導入し,蓄積した軌道コストとともに端末状態の品質を最適化する。
得られたプランナーであるKiTeは、この端末コストの目標を符号化し、不確実性の下で信頼性を向上させる。
- 参考スコア(独自算出の注目度): 1.2425910171551517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many real-world robotic tasks, robots must generate dynamically feasible motions that reliably reach desired goals even under uncertainty. Yet existing sampling-based kinodynamic planners typically optimize accumulated trajectory costs and treat goal reaching as a feasibility check, rather than explicitly optimizing terminal-state quality, such as goal preference or goal-reaching reliability. In this work, we introduce a terminal-cost formulation for kinodynamic planning that allows terminal-state quality to be optimized alongside accumulated trajectory cost. We prove that AO-RRT, an asymptotically optimal kinodynamic planner, preserves its asymptotic optimality under this augmented objective. We further extend the formulation to belief space and prove that minimizing the Wasserstein distance between the terminal belief and the goal improves a lower bound on the probability of reaching the goal region. The resulting planner, KiTe, uses this terminal-cost objective to encode goal preferences and improve reliability under uncertainty. To support systems without analytical uncertainty models, we learn dynamics and process uncertainty directly from data and integrate the learned belief dynamics into planning. Experiments on Flappy Bird, Car Parking, and Planar Pushing show that KiTe consistently improves goal-reaching success under uncertainty. Real-world Planar Pushing experiments further demonstrate that KiTe can plan effectively with learned dynamics and uncertainty. Source code is available at https://github.com/elpis-lab/KiTe.
- Abstract(参考訳): 多くの現実世界のロボットタスクでは、ロボットは、不確実性の下でも確実に望ましい目標に達する、動的に実現可能な動作を生成する必要がある。
しかし、既存のサンプリングベースのキノダイナミックプランナーは、ゴール優先やゴール到達信頼性などの端末状態の品質を明示的に最適化するのではなく、蓄積した軌道コストを最適化し、目標到達を実現可能性チェックとして扱うのが一般的である。
本研究では,キノダイナミック計画のための端末コストの定式化を行い,蓄積した軌道コストとともに端末状態の品質を最適化する。
我々は,漸近的に最適なキノダイナミックプランナーであるAO-RRTが,この拡張目的の下でその漸近的最適性を保っていることを証明した。
さらに、定式化を信念空間に拡張し、終端信念と目標の間のワッサーシュタイン距離を最小化することで、目標領域に到達する確率の低い境界を改善することを証明する。
得られたプランナーであるKiTeは、この端末コストの目標を符号化し、不確実性の下で信頼性を向上させる。
分析的不確実性モデルのないシステムを支援するために、我々はデータから直接力学を学び、不確実性を処理し、学習された信念のダイナミクスを計画に統合する。
Flappy Bird、Car Parking、Planar Pushingの実験によると、KiTeは不確実性の下で目標達成の成功を継続的に改善している。
実世界の平面プッシュ実験は、KiTeが学習力学と不確実性で効果的に計画できることをさらに証明している。
ソースコードはhttps://github.com/elpis-lab/KiTe.comで入手できる。
関連論文リスト
- RAY-TOLD: Ray-Based Latent Dynamics for Dense Dynamic Obstacle Avoidance with TDMPC [5.838266102141284]
RAY-TOLDは、障害情報を潜在力学に統合するハイブリッド制御アーキテクチャである。
本稿では,MPPI候補人口を学習方針から派生した軌道で増加させる政策混合サンプリング戦略を提案する。
その結果、短時間の水平物理学に基づくロールアウトと学習された長い水平意図を組み合わせることで、ナビゲーションの信頼性と安全性が著しく向上することが確認された。
論文 参考訳(メタデータ) (2026-04-30T05:44:46Z) - HAD: Combining Hierarchical Diffusion with Metric-Decoupled RL for End-to-End Driving [51.268878540511054]
我々は階層的拡散政策を備えたエンドツーエンドの計画フレームワークであるHADを提案する。
我々は,NAVSIMとHUGSIMの両方でHADが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2026-04-04T04:12:47Z) - Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - Parallel Stochastic Gradient-Based Planning for World Models [39.699893143984916]
本稿では,学習した世界モデルの識別性を有効に活用する,堅牢で並列性の高いプランナを提案する。
本手法は,ソフトダイナミックス制約による最適化変数(仮想状態)として状態を扱い,並列かつ容易な最適化を実現する。
我々のプランナーはGRASP(GradAxed Planner)と呼ばれ、非凝縮またはコロケーションベースの最適コントローラの有効なバージョンと見なすことができる。
論文 参考訳(メタデータ) (2026-01-31T02:57:47Z) - PILOT: Planning via Internalized Latent Optimization Trajectories for Large Language Models [51.43746425777865]
大規模言語モデル(LLM)は、しばしばグローバル戦略を定式化する能力に欠けており、長い水平タスクにおけるエラーの伝播につながる。
PILOTは,大規模モデルの戦略的監視を本質的な潜伏誘導に内部化するためのフレームワークである。
論文 参考訳(メタデータ) (2026-01-07T12:38:56Z) - Autoregressive End-to-End Planning with Time-Invariant Spatial Alignment and Multi-Objective Policy Refinement [15.002921311530374]
自動回帰モデルは、自動運転におけるエンドツーエンドの計画のための、強烈なベースラインである。
彼らのパフォーマンスは、過去の知覚データに将来の行動を条件にする必要があるため、時間的ミスアライメントによって制約される。
本稿では,初期環境特徴を一貫したエゴ中心のフレームに投影する時間不変アライメント(TISA)モジュールを提案する。
また、DPO(Direct Preference Optimization)を用いた多目的ポストトレーニングのステージを導入し、純粋な模倣を克服する。
論文 参考訳(メタデータ) (2025-09-25T09:24:45Z) - Efficient Virtuoso: A Latent Diffusion Transformer Model for Goal-Conditioned Trajectory Planning [0.0]
本稿では,目標条件付き軌道計画のための条件付き潜在拡散モデルであるEfficient Virtuosoを提案する。
提案手法は,Open Motionデータセット上での最先端性能を実現し,平均変位誤差(minADE)が0.25であることを示す。
一つのゴールが戦略的曖昧さを解決できる一方で、人間の運転行動を反映した正確で忠実な戦術実行を実現するためには、よりリッチで多段階のスパース経路が不可欠である。
論文 参考訳(メタデータ) (2025-09-03T19:18:02Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Learning to Plan Optimistically: Uncertainty-Guided Deep Exploration via
Latent Model Ensembles [73.15950858151594]
本稿では,不確実な長期報酬に直面した最適化による深層探査を可能にするLOVE(Latent Optimistic Value Exploration)を提案する。
潜在世界モデルと値関数推定を組み合わせ、無限水平リターンを予測し、アンサンブルにより関連する不確実性を回復する。
連続行動空間における視覚ロボット制御タスクにLOVEを適用し、最先端や他の探査目標と比較して、平均20%以上のサンプル効率の改善を実証する。
論文 参考訳(メタデータ) (2020-10-27T22:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。