論文の概要: Accelerating Visual-Policy Learning through Parallel Differentiable Simulation
- arxiv url: http://arxiv.org/abs/2505.10646v1
- Date: Thu, 15 May 2025 18:38:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:13.377756
- Title: Accelerating Visual-Policy Learning through Parallel Differentiable Simulation
- Title(参考訳): 並列微分可能シミュレーションによる視覚政策学習の高速化
- Authors: Haoxiang You, Yilang Liu, Ian Abraham,
- Abstract要約: 本稿では、微分可能シミュレーションと一階解析的ポリシー勾配を利用する視覚政策学習のための計算効率の良いアルゴリズムを提案する。
我々のアプローチは、計算グラフからレンダリングプロセスを分離し、既存の微分可能シミュレーションエコシステムとのシームレスな統合を可能にします。
特に,本手法は最終リターンで4時間分の改善を実現し,単一のGPU上で4時間以内にヒューマノイド動作ポリシーを学習することに成功した。
- 参考スコア(独自算出の注目度): 3.70729078195191
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose a computationally efficient algorithm for visual policy learning that leverages differentiable simulation and first-order analytical policy gradients. Our approach decouple the rendering process from the computation graph, enabling seamless integration with existing differentiable simulation ecosystems without the need for specialized differentiable rendering software. This decoupling not only reduces computational and memory overhead but also effectively attenuates the policy gradient norm, leading to more stable and smoother optimization. We evaluate our method on standard visual control benchmarks using modern GPU-accelerated simulation. Experiments show that our approach significantly reduces wall-clock training time and consistently outperforms all baseline methods in terms of final returns. Notably, on complex tasks such as humanoid locomotion, our method achieves a $4\times$ improvement in final return, and successfully learns a humanoid running policy within 4 hours on a single GPU.
- Abstract(参考訳): 本研究では、微分可能シミュレーションと一階解析的ポリシー勾配を利用する視覚政策学習のための計算効率の良いアルゴリズムを提案する。
提案手法は,計算グラフからレンダリング処理を分離し,特殊化可能なレンダリングソフトウェアを必要とせずに,既存の微分可能シミュレーションエコシステムとのシームレスな統合を可能にする。
この分離は計算とメモリのオーバーヘッドを減らすだけでなく、ポリシーの勾配基準を効果的に減らし、より安定でスムーズな最適化をもたらす。
最新のGPUアクセラレーションシミュレーションを用いて,標準的な視覚制御ベンチマークを用いて本手法の評価を行った。
実験により,本手法はウォールタイムのトレーニング時間を著しく短縮し,最終的なリターンの点ですべてのベースライン法を一貫して上回っていることが示された。
特に、ヒューマノイドの移動のような複雑なタスクにおいて、最終的なリターンで4ドル以上の改善を実現し、単一のGPU上で4時間以内にヒューマノイドの動作ポリシーを学習することに成功した。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Gradient-free online learning of subgrid-scale dynamics with neural emulators [5.283819482083864]
機械学習に基づくサブグリッドパラメトリゼーションをオンラインでトレーニングするための汎用アルゴリズムを提案する。
我々は、元の解法の勾配を計算することなく、オンライン戦略の利点のほとんどを回復するパラメトリゼーションを訓練することができる。
論文 参考訳(メタデータ) (2023-10-30T09:46:35Z) - RISP: Rendering-Invariant State Predictor with Differentiable Simulation
and Rendering for Cross-Domain Parameter Estimation [110.4255414234771]
既存のソリューションでは、大量のトレーニングデータが必要か、未知のレンダリング設定への一般化性が欠如している。
本稿では、ドメインのランダム化と微分可能なレンダリング勾配を併用してこの問題に対処する手法を提案する。
提案手法は, 再構成誤差を大幅に低減し, 未知のレンダリング構成間の一般化性が向上する。
論文 参考訳(メタデータ) (2022-05-11T17:59:51Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - GPU-Accelerated Policy Optimization via Batch Automatic Differentiation
of Gaussian Processes for Real-World Control [8.720903734757627]
我々は, 高速な予測サンプリング手法を利用して, 前方通過毎に軌道のバッチ処理を行うことにより, 政策最適化手法を開発した。
重機を用いた基準追従制御実験の訓練方針における本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-02-28T09:31:15Z) - Efficient Differentiable Simulation of Articulated Bodies [89.64118042429287]
本稿では, 音素の効率的な微分可能シミュレーション法を提案する。
これにより、ボディダイナミクスを深層学習フレームワークに統合することが可能になる。
提案手法を用いて, 調音システムによる強化学習を高速化できることを示す。
論文 参考訳(メタデータ) (2021-09-16T04:48:13Z) - DiffPD: Differentiable Projective Dynamics with Contact [65.88720481593118]
DiffPDは、暗黙の時間積分を持つ効率的な微分可能なソフトボディシミュレータである。
我々はDiffPDの性能を評価し,様々な応用における標準ニュートン法と比較して4~19倍のスピードアップを観測した。
論文 参考訳(メタデータ) (2021-01-15T00:13:33Z) - A Primer on Zeroth-Order Optimization in Signal Processing and Machine
Learning [95.85269649177336]
ZO最適化は、勾配推定、降下方向、ソリューション更新の3つの主要なステップを反復的に実行する。
我々は,ブラックボックス深層学習モデルによる説明文の評価や生成,効率的なオンラインセンサ管理など,ZO最適化の有望な応用を実証する。
論文 参考訳(メタデータ) (2020-06-11T06:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。