論文の概要: Accelerating trajectory optimization with Sobolev-trained diffusion policies
- arxiv url: http://arxiv.org/abs/2604.19011v1
- Date: Tue, 21 Apr 2026 03:00:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.58395
- Title: Accelerating trajectory optimization with Sobolev-trained diffusion policies
- Title(参考訳): ソボレフ学習拡散政策による軌道最適化の高速化
- Authors: Théotime Le Hellard, Franki Nguimatsia Tiofack, Quentin Le Lidec, Justin Carpentier,
- Abstract要約: 軌道最適化(TO)ソルバは、既知の系力学を利用して局所最適軌道を計算する。
欠点は、各新しい問題インスタンスが独立して解決されることです。
効率性を改善するために、学習されたポリシーによって生成された最初の推測でTOをウォームスタートする自然なアプローチがある。
- 参考スコア(独自算出の注目度): 12.684196947818103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Trajectory Optimization (TO) solvers exploit known system dynamics to compute locally optimal trajectories through iterative improvements. A downside is that each new problem instance is solved independently; therefore, convergence speed and quality of the solution found depend on the initial trajectory proposed. To improve efficiency, a natural approach is to warm-start TO with initial guesses produced by a learned policy trained on trajectories previously generated by the solver. Diffusion-based policies have recently emerged as expressive imitation learning models, making them promising candidates for this role. Yet, a counterintuitive challenge comes from the local optimality of TO demonstrations: when a policy is rolled out, small non-optimal deviations may push it into situations not represented in the training data, triggering compounding errors over long horizons. In this work, we focus on learning-based warm-starting for gradient-based TO solvers that also provide feedback gains. Exploiting this specificity, we derive a first-order loss for Sobolev learning of diffusion-based policies using both trajectories and feedback gains. Through comprehensive experiments, we demonstrate that the resulting policy avoids compounding errors, and so can learn from very few trajectories to provide initial guesses reducing solving time by $2\times$ to $20 \times$. Incorporating first-order information enables predictions with fewer diffusion steps, reducing inference latency.
- Abstract(参考訳): 軌道最適化(TO)ソルバは、既知のシステムダイナミクスを利用して、反復的な改善を通じて局所最適軌道を計算する。
欠点は、各新しい問題インスタンスが独立して解決されることであり、したがって、発見される解の収束速度と品質は、提案された初期軌道に依存する。
効率を向上させるために、自然のアプローチは、以前にソルバが生成した軌跡に基づいて訓練された学習ポリシーによって生成された最初の推測でTOをウォームスタートすることである。
拡散に基づく政策は、最近、表現力のある模倣学習モデルとして現れており、この役割の候補として有望である。
ポリシーがロールアウトされると、小さな非最適偏差がトレーニングデータに表現されない状況に陥り、長い地平線上で複雑なエラーを引き起こします。
本研究では,フィードバックゲインを提供する勾配型TOソルバの学習に基づくウォームスタートに着目した。
この特異性をエクスプロイトすることで、トラジェクトリとフィードバックゲインの両方を用いた拡散ベースのポリシーのソボレフ学習の1次的損失を導出する。
総合的な実験を通じて、結果のポリシが複合的なエラーを避けることを実証し、ごく少数の軌道から学習することで、最初の推定結果から解時間を2\times$から20 \times$に短縮できることを示した。
ファーストオーダー情報を組み込むことで、拡散ステップの少ない予測が可能になり、推論遅延を低減できる。
関連論文リスト
- Zero-Shot Off-Policy Learning [9.729890516322781]
オフ政治学習法は、事前の相互作用の固定されたデータセットから直接最適なポリシーを導き出そうとする。
本研究では, 定常密度比に対する後継対策の理論的関連を見出すことにより, ゼロショット環境での政治外問題に対処する。
提案アルゴリズムは最適な重要度サンプリング比を推定し,任意のタスクに対して最適なポリシで定常分布補正を効果的に行う。
論文 参考訳(メタデータ) (2026-02-02T11:06:31Z) - Q-learning with Adjoint Matching [58.78551025170267]
本稿では,新しいTD-based reinforcement learning (RL)アルゴリズムであるAdjoint Matching (QAM) を用いたQ-learningを提案する。
QAMは、最近提案された生成モデリング手法であるadjoint matchingを活用することで、2つの課題を回避している。
オフラインとオフラインの両方のRLにおいて、ハードでスパースな報酬タスクに対する従来のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-20T18:45:34Z) - A Dual Perspective on Decision-Focused Learning: Scalable Training via Dual-Guided Surrogates [1.7100385719232911]
意思決定にフォーカスした学習は、予測がどのようにリフレッシュするかを意識してモデルを訓練し、下流の意思決定のパフォーマンスを改善します。
最先端のメソッドはソルバを通じて区別するか、タスク固有のサロゲートに依存します。
本稿では,2変数を用いた形状学習とデュアルガイドロス(DGL)の導入について述べる。
DGLは最先端のDFLメソッドと一致または超過するが、呼び出しははるかに少なく、トレーニング時間もかなり少ない。
論文 参考訳(メタデータ) (2025-11-07T01:15:15Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - Online Decision-Focused Learning [74.3205104323777]
意思決定中心学習(DFL)は、意思決定タスクで予測出力が使用されるモデルのトレーニングパラダイムとして、ますます人気が高まっている。
本稿では,目的関数を規則化し,その相違を解消し,非最適関数を克服する方法を検討する。
また、クナップサック実験におけるアルゴリズムの有効性を示し、2つの標準ベンチマークを上回りました。
論文 参考訳(メタデータ) (2025-05-19T10:40:30Z) - CGD: Constraint-Guided Diffusion Policies for UAV Trajectory Planning [26.10588918124538]
計算時間を短縮するために成功した戦略は、Imitation Learning (IL)を使用して専門家から高速ニューラルネットワーク(NN)ポリシーを開発することである。
結果のNNポリシは,専門家と同様のトラジェクトリを高速に生成する上で有効だが,その出力は動的実現可能性を明確に考慮していない。
本稿では,トラジェクトリ計画のための新しいILベースのアプローチであるConstraint-Guided Diffusion (CGD)を提案する。
論文 参考訳(メタデータ) (2024-05-02T21:50:26Z) - Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。