論文の概要: ATRS: Adaptive Trajectory Re-splitting via a Shared Neural Policy for Parallel Optimization
- arxiv url: http://arxiv.org/abs/2604.22715v1
- Date: Fri, 24 Apr 2026 16:58:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.539055
- Title: ATRS: Adaptive Trajectory Re-splitting via a Shared Neural Policy for Parallel Optimization
- Title(参考訳): ATRS: 並列最適化のための共有ニューラルポリシーによる適応軌道再分割
- Authors: Jiajun Yu, Guodong Liu, Li Wang, Pengxiang Zhou, Wentao Liu, Yin He, Chao Xu, Fei Gao, Yanjun Cao,
- Abstract要約: 並列ADMMループに共有のDeep Reinforcement Learningポリシーを組み込む新しいフレームワークであるATRSを提案する。
我々は、ATRS収束が26.2%まで加速し、計算時間が19.1%まで加速することを示した。
実世界の実験は、大規模なオフライングローバル計画とリアルタイムオンボード計画の両方に1サイクルあたり35ミリ秒以内の適用性をさらに確認する。
- 参考スコア(独自算出の注目度): 14.810654249835572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parallel trajectory optimization via the Alternating Direction Method of Multipliers (ADMM) has emerged as a scalable approach to long-horizon motion planning. However, existing frameworks typically decompose the problem into parallel subproblems based on a predefined fixed structure. Such structural rigidity often causes optimization stagnation in highly constrained regions, where a few lagging subproblems delay global convergence. A natural remedy is to adaptively re-split these stagnating segments online. Yet, deciding when, where, and how to split exceeds the capability of rule-based heuristics. To this end, we propose ATRS, a novel framework that embeds a shared Deep Reinforcement Learning policy into the parallel ADMM loop. We formulate this adaptive adjustment as a Multi-Agent Shared-Policy Markov Decision Process, where all trajectory segments act as homogeneous agents and share a unified neural policy network. This parameter-sharing architecture endows the system with size invariance, enabling it to handle dynamically changing segment counts during re-splitting and generalize to arbitrary trajectory lengths. Furthermore, our formulation inherently supports zero-shot generalization to unseen environments, as our network relies solely on the internal states of the numerical solver rather than on the geometric features of the environment. To ensure solver stability, a Confidence-Based Election mechanism selects only the most stagnating segment for re-splitting at each step. Extensive simulations demonstrate that ATRS accelerates convergence, reducing the number of iterations by up to 26.0% and the computation time by up to 19.1%. Real-world experiments further confirm its applicability to both large-scale offline global planning and real-time onboard replanning within 35 ms per cycle, with no sim-to-real degradation.
- Abstract(参考訳): マルチプライヤの交互方向法(ADMM)による並列軌道最適化は、長距離移動計画のスケーラブルなアプローチとして現れている。
しかし、既存のフレームワークは通常、あらかじめ定義された固定構造に基づいて問題を並列サブプロブレムに分解する。
このような構造的剛性はしばしば高度に制約された領域における最適化の停滞を引き起こす。
自然な治療法は、これらの停滞するセグメントをオンラインで適応的に再分割することである。
しかし、いつ、どこで、どのように分割するかを決めることは、ルールベースのヒューリスティックスの能力を超える。
そこで我々は,共有の深層強化学習ポリシーを並列ADMMループに組み込む新しいフレームワークATRSを提案する。
我々は、この適応調整をマルチエージェント共有マルコフ決定プロセスとして定式化し、全ての軌道セグメントが均質なエージェントとして機能し、統一されたニューラルポリシーネットワークを共有する。
このパラメータ共有アーキテクチャは、システムに大きさの不変性を付与し、再分割時に動的に変化するセグメント数を処理し、任意の軌道長に一般化する。
さらに,我々の定式化はゼロショットの一般化を非可視環境に本質的にサポートし,そのネットワークは環境の幾何学的特徴よりも数値解法の内部状態にのみ依存している。
信頼性ベースの選挙機構は、解決者の安定性を確保するため、各ステップで再分割する最も停滞するセグメントのみを選択する。
大規模なシミュレーションにより、ATRSは収束を加速し、イテレーションの回数を26.0%まで減らし、計算時間を19.1%まで短縮した。
実世界の実験は、大規模なオフライングローバル計画とリアルタイムオンボード計画の両方に適用可能であることをさらに確認し、1サイクルあたり35ミリ秒以内で、シム・トゥ・リアルな劣化はない。
関連論文リスト
- Structure-Aware Commitment Reduction for Network-Constrained Unit Commitment with Solver-Preserving Guarantees [8.762061888571978]
本稿では,ネットワーク制約付きユニットコミットメントのためのデメンタリティ削減フレームワークを提案する。
最適化に先立って修正するコミットメント決定における構造的規則性を利用する。
IEEE 57-bus、73-bus、IEEE 118-bus、拡張された大規模ケースに対する実験は、分岐とバウンドノードの一貫性のある減少と解時間を示している。
論文 参考訳(メタデータ) (2026-04-03T06:55:32Z) - Para-B&B: Load-Balanced Deterministic Parallelization of Solving MIP [50.917107318582715]
MIP(Mixed-integer Programming)は、連続型と整数型の両方の決定変数を組み込むことで線形プログラミングを拡張する。
本稿では,高性能MIPソルバであるHiGHSに対して,決定論的並列分岐結合の完全なオープンソース実装を初めて提案する。
本手法では,ワーカスレッド間で完全なソルバ状態を複製することにより,厳密な決定性を保証する新しいデータ並列アーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-02-10T14:17:53Z) - Breaking the Grid: Distance-Guided Reinforcement Learning in Large Discrete and Hybrid Action Spaces [4.395837214164745]
距離誘導型強化学習(DGRL)を提案し,最大10$text20$アクションを持つ空間における効率的なRLを実現する。
定常および不規則に構造化された環境における最先端ベンチマークに対して,最大66%の性能向上を示す。
論文 参考訳(メタデータ) (2026-02-09T13:05:07Z) - Data- and Variance-dependent Regret Bounds for Online Tabular MDPs [15.092125124258592]
両世界の最良なアルゴリズムは, 逆境系における洗練されたデータ依存的後悔境界と, 逆境系における分散依存的後悔境界を実現する。
政策最適化のために、我々のアルゴリズムは同じデータと分散に依存した適応性を、エピソード水平線の要素まで達成する。
論文 参考訳(メタデータ) (2026-02-02T10:09:29Z) - Aggregation on Learnable Manifolds for Asynchronous Federated Optimization [3.8208848658169763]
曲線学習としてアグリゲーションを取り入れた幾何学的枠組みを導入する。
そこで我々は,線形アグリゲーションを低次曲率成分に置き換えたAsyncBezierを提案する。
これらの利得は、他の方法がより高いローカルな計算予算に割り当てられた場合でも維持されることを示す。
論文 参考訳(メタデータ) (2025-03-18T16:36:59Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。
これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文 参考訳(メタデータ) (2021-03-01T22:55:48Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。