論文の概要: CACTO-BIC: Scalable Actor-Critic Learning via Biased Sampling and GPU-Accelerated Trajectory Optimization
- arxiv url: http://arxiv.org/abs/2602.19699v1
- Date: Mon, 23 Feb 2026 10:45:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.643132
- Title: CACTO-BIC: Scalable Actor-Critic Learning via Biased Sampling and GPU-Accelerated Trajectory Optimization
- Title(参考訳): CACTO-BIC: バイアスサンプリングとGPU加速軌道最適化によるスケーラブルアクタ・クリティカルラーニング
- Authors: Elisa Alboni, Pietro Noah Crestaz, Elias Fontanari, Andrea Del Prete,
- Abstract要約: トレイ比較最適化(TO)と強化学習(RL)は最適制御問題に対する強みを提供する。
CACGOは高次元の課題に対してより堅牢であるのに対して、ローカルで効率的に計算する。
- 参考スコア(独自算出の注目度): 1.9644272536912284
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Trajectory Optimization (TO) and Reinforcement Learning (RL) offer complementary strengths for solving optimal control problems. TO efficiently computes locally optimal solutions but can struggle with non-convexity, while RL is more robust to non-convexity at the cost of significantly higher computational demands. CACTO (Continuous Actor-Critic with Trajectory Optimization) was introduced to combine these advantages by learning a warm-start policy that guides the TO solver towards low-cost trajectories. However, scalability remains a key limitation, as increasing system complexity significantly raises the computational cost of TO. This work introduces CACTO-BIC to address these challenges. CACTO-BIC improves data efficiency by biasing initial-state sampling leveraging a property of the value function associated with locally optimal policies; moreover, it reduces computation time by exploiting GPU acceleration. Empirical evaluations show improved sample efficiency and faster computation compared to CACTO. Comparisons with PPO demonstrate that our approach can achieve similar solutions in less time. Finally, experiments on the AlienGO quadruped robot demonstrate that CACTO-BIC can scale to high-dimensional systems and is suitable for real-time applications.
- Abstract(参考訳): 軌道最適化(TO)と強化学習(RL)は、最適制御問題を解決するために相補的な強みを提供する。
局所最適解を効率的に計算するが、RLはより高い計算要求のコストで非凸性に対して堅牢である。
CACTO(Continuous Actor-Critic with Trajectory Optimization)は、TOソルバを低コストな軌道へと誘導するウォームスタートポリシーを学習することにより、これらの利点を組み合わせるために導入された。
しかし、システム複雑性の増大はTOの計算コストを大幅に上昇させるため、スケーラビリティは依然として重要な限界である。
この研究はこれらの課題に対処するためにCACTO-BICを導入している。
CACTO-BICは、局所最適ポリシーに関連する値関数の特性を利用して初期状態サンプリングをバイアスすることで、データ効率を向上させる。
実験による評価では,CACTOに比べて試料効率が向上し,計算速度も向上した。
PPOとの比較は、我々のアプローチがより少ない時間で類似したソリューションを実現できることを示す。
最後に、AlienGO四足歩行ロボットの実験により、CACTO-BICは高次元システムにスケールでき、リアルタイムアプリケーションに適していることを示した。
関連論文リスト
- Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - WARP-LCA: Efficient Convolutional Sparse Coding with Locally Competitive Algorithm [1.4186974630564675]
WARP-LCAは,従来のLCAに比べて桁違いに収束し,最小限にまで達することを示す。
WARP-LCAは, 深い認識パイプラインに適用した場合, 再現性, 復調性, およびロバスト性において優れた特性を示す。
論文 参考訳(メタデータ) (2024-10-24T14:47:36Z) - CACTO-SL: Using Sobolev Learning to improve Continuous Actor-Critic with
Trajectory Optimization [12.115023915042617]
トラボ学習ガイドTOと強化学習(RL)は最適な制御問題を解決するための強力なツールである。
本稿では,Solev-SLのアイデアを利用したCACTOの拡張について述べる。
論文 参考訳(メタデータ) (2023-12-17T09:44:41Z) - Federated Conditional Stochastic Optimization [110.513884892319]
条件付き最適化は、不変学習タスク、AUPRC、AMLなど、幅広い機械学習タスクで見られる。
本稿では,分散フェデレーション学習のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-04T01:47:37Z) - Controlling Continuous Relaxation for Combinatorial Optimization [0.0]
最適化のための教師なし学習解決器(CO)は、連続緩和戦略を用いてソフトソリューションを生成するニューラルネットワークを訓練する。
本研究では,ul-based solverの学習手法であるContinuous Relaxation Anneal(CRA)戦略を紹介する。
論文 参考訳(メタデータ) (2023-09-29T04:23:58Z) - Asymptotically Unbiased Instance-wise Regularized Partial AUC
Optimization: Theory and Algorithm [101.44676036551537]
One-way partial AUC (OPAUC) と Two-way partial AUC (TPAUC) はバイナリ分類器の平均性能を測定する。
既存の手法のほとんどはPAUCをほぼ最適化するしかなく、制御不能なバイアスにつながる。
本稿では,分散ロバスト最適化AUCによるPAUC問題の簡易化について述べる。
論文 参考訳(メタデータ) (2022-10-08T08:26:22Z) - Fast Distributionally Robust Learning with Variance Reduced Min-Max
Optimization [85.84019017587477]
分散的ロバストな教師付き学習は、現実世界のアプリケーションのための信頼性の高い機械学習システムを構築するための重要なパラダイムとして登場している。
Wasserstein DRSLを解くための既存のアルゴリズムは、複雑なサブプロブレムを解くか、勾配を利用するのに失敗する。
我々はmin-max最適化のレンズを通してwaserstein drslを再検討し、スケーラブルで効率的に実装可能な超勾配アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-04-27T16:56:09Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。