論文の概要: First Order Model-Based RL through Decoupled Backpropagation
- arxiv url: http://arxiv.org/abs/2509.00215v2
- Date: Thu, 04 Sep 2025 12:46:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 11:58:39.443786
- Title: First Order Model-Based RL through Decoupled Backpropagation
- Title(参考訳): 非結合バックプロパゲーションによる1次モデルベースRL
- Authors: Joseph Amigo, Rooholla Khorrambakht, Elliot Chane-Sane, Nicolas Mansard, Ludovic Righetti,
- Abstract要約: 勾配計算から軌道生成を分離する手法を提案する。
本手法は,SHACなどの特殊な移動のサンプル効率と速度を実現する。
我々は、ベンチマーク制御タスクにおける勾配アルゴリズムを実証的に検証し、実際のGo2四足歩行ロボット上での有効性を実証する。
- 参考スコア(独自算出の注目度): 10.963895023346879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is growing interest in reinforcement learning (RL) methods that leverage the simulator's derivatives to improve learning efficiency. While early gradient-based approaches have demonstrated superior performance compared to derivative-free methods, accessing simulator gradients is often impractical due to their implementation cost or unavailability. Model-based RL (MBRL) can approximate these gradients via learned dynamics models, but the solver efficiency suffers from compounding prediction errors during training rollouts, which can degrade policy performance. We propose an approach that decouples trajectory generation from gradient computation: trajectories are unrolled using a simulator, while gradients are computed via backpropagation through a learned differentiable model of the simulator. This hybrid design enables efficient and consistent first-order policy optimization, even when simulator gradients are unavailable, as well as learning a critic from simulation rollouts, which is more accurate. Our method achieves the sample efficiency and speed of specialized optimizers such as SHAC, while maintaining the generality of standard approaches like PPO and avoiding ill behaviors observed in other first-order MBRL methods. We empirically validate our algorithm on benchmark control tasks and demonstrate its effectiveness on a real Go2 quadruped robot, across both quadrupedal and bipedal locomotion tasks.
- Abstract(参考訳): シミュレータのデリバティブを活用して学習効率を向上させる強化学習(RL)手法への関心が高まっている。
初期の勾配に基づくアプローチはデリバティブフリー手法よりも優れた性能を示してきたが、シミュレータ勾配へのアクセスは実装コストや適用不可能のため、しばしば非現実的である。
モデルベースRL(MBRL)は、学習力学モデルによってこれらの勾配を近似することができるが、解法効率は、トレーニングロールアウト中に予測エラーを複雑にし、政策性能を劣化させる。
本研究では, 勾配計算から軌道生成を分離する手法を提案する: 軌道はシミュレータを用いてアンロールされ, 勾配はシミュレータの学習可能な微分モデルを用いてバックプロパゲーションによって計算される。
このハイブリッド設計は、シミュレータ勾配が利用できない場合でも効率よく一貫した1次ポリシー最適化を可能にし、より正確なシミュレーションロールアウトから批判者を学ぶことができる。
本手法は,PPOなどの標準手法の汎用性を維持しつつ,他の1次MBRL法で観測される異常な動作を回避しつつ,SHACなどの特殊最適化器のサンプル効率と高速化を実現する。
我々は、ベンチマーク制御タスクにおいてアルゴリズムを実証的に検証し、実際のGo2四足歩行ロボットにおいて、四足歩行と二足歩行の両方でその効果を実証する。
関連論文リスト
- Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。
本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。
AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-24T05:17:53Z) - Revisiting the Initial Steps in Adaptive Gradient Descent Optimization [6.468625143772815]
Adamのような適応的な勾配最適化手法は、さまざまな機械学習タスクにわたるディープニューラルネットワークのトレーニングで広く使われている。
これらの手法は、降下勾配 (SGD) と比較して最適下一般化に苦しむことが多く、不安定性を示す。
非ゼロ値で2階モーメント推定を初期化する。
論文 参考訳(メタデータ) (2024-12-03T04:28:14Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Adaptive Horizon Actor-Critic for Policy Learning in Contact-Rich Differentiable Simulation [36.308936312224404]
本稿では, FO-MBRLアルゴリズムであるAdaptive Horizon Actor-Critic (AHAC)を提案する。
実験結果から,AHACはMFRLベースラインより優れており,ローコモーションタスク全体で40%以上の報酬が得られ,壁面時間効率が向上した高次元制御環境への効率なスケーリングが可能であった。
論文 参考訳(メタデータ) (2024-05-28T03:28:00Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Differentiable Agent-Based Simulation for Gradient-Guided
Simulation-Based Optimization [0.0]
勾配推定法は局所最適化に向けて最適化を行うのに利用できる。
高入力次元の信号タイミング最適化問題では、勾配に基づく手法の方がかなり優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-23T11:58:21Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。