論文の概要: Efficient On-policy Visual-RL via Stochastic Decoupled Policy Gradient
- arxiv url: http://arxiv.org/abs/2605.26478v1
- Date: Tue, 26 May 2026 02:35:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.588652
- Title: Efficient On-policy Visual-RL via Stochastic Decoupled Policy Gradient
- Title(参考訳): 確率的疎結合ポリシグラディエントによる効率的なオンラインビジュアルRL
- Authors: Haoxiang You, Yilang Liu, Davis Zong, Qian Wang, Teeratham Vitchutripop, Qi Wang, Daniel Rakita, Ian Abraham,
- Abstract要約: 本稿では,多種多様なビジュモータ制御ポリシーをエンドツーエンドに学習する軽量視覚強化学習(RL)手法であるSDPG(Decoupled Policy gradient)を提案する。
SDPGは、軌道転がりのランダムな摂動を通じてポリシーの勾配を推定し、バッチレンダリングされた環境を桁違いに少なくする。
ビジュアルな MuJoCo ベンチマークでは、SDPG はトレーニング時間、メモリ使用量、報酬において、ベースラインメソッドを一貫して上回っている。
- 参考スコア(独自算出の注目度): 9.971505157889503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the stochastic decoupled policy gradient (SDPG), a lightweight visual reinforcement learning (RL) method that trains diverse visuomotor control policies end-to-end within a few hours on a single NVIDIA RTX 4080 GPU. SDPG estimates policy gradients via random perturbations of trajectory rollouts, requiring orders of magnitude fewer batch-rendered environments and substantially reducing compute and memory overhead. On visual MuJoCo benchmarks, SDPG consistently outperforms baseline methods in training time, memory usage, and rewards. Finally, to support future research, we introduce a suite of realistic visual robotics benchmarks spanning dexterous manipulation, challenging locomotion, and demonstrate effective sim-to-real transfer on physical hardware.
- Abstract(参考訳): 本稿では,一台のNVIDIA RTX 4080 GPU上で,数時間以内に多様なビジュモータ制御ポリシをエンドツーエンドにトレーニングする軽量ビジュアル強化学習(RL)手法である,確率的疎結合ポリシ勾配(SDPG)を提案する。
SDPGは、トラジェクティブロールアウトのランダムな摂動によってポリシーの勾配を推定し、バッチレンダリングされた環境を桁違いに少なくし、計算とメモリオーバーヘッドを大幅に削減する。
ビジュアルな MuJoCo ベンチマークでは、SDPG はトレーニング時間、メモリ使用量、報酬において、ベースラインメソッドを一貫して上回っている。
最後に,創発的な操作,ロコモーションへの挑戦,物理ハードウェアへの効率的なシミュレート・トゥ・リアルトランスファーの実証などを含む,現実的な視覚ロボティクスのベンチマークスイートを紹介する。
関連論文リスト
- Simple but Stable, Fast and Safe: Achieve End-to-end Control by High-Fidelity Differentiable Simulation [14.322775509774246]
障害物回避(Obstacle avoidance)は、四重項が高度なアプリケーションを実行できるようにするための基本的な視覚ベースのタスクである。
本稿では,深度画像を直接低レベルのボディレートコマンドにマッピングする新しいエンドツーエンドポリシーを提案する。
その結果,提案手法は,最先端のベースラインの中で,最も成功率が高く,かつ最低であることがわかった。
論文 参考訳(メタデータ) (2026-04-12T09:38:00Z) - Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer [59.02729900344616]
GPUを加速したフォトリアリスティックなシミュレーションは、ロボット学習のためのスケーラブルなデータ生成パスを開いた。
視覚に基づくヒューマノイドロコ操作のための教師-学生-ブートストラップ学習フレームワークを開発した。
これは、純粋なRGB知覚を用いた多様な調音ロコ操作が可能な初めてのヒューマノイド・シム・トゥ・リアル政策である。
論文 参考訳(メタデータ) (2025-11-30T20:07:13Z) - Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Accelerating Visual-Policy Learning through Parallel Differentiable Simulation [3.70729078195191]
本稿では、微分可能シミュレーションと一階解析的ポリシー勾配を利用する視覚政策学習のための計算効率の良いアルゴリズムを提案する。
我々のアプローチは、計算グラフからレンダリングプロセスを分離し、既存の微分可能シミュレーションエコシステムとのシームレスな統合を可能にします。
特に,本手法は最終リターンで4時間分の改善を実現し,単一のGPU上で4時間以内にヒューマノイド動作ポリシーを学習することに成功した。
論文 参考訳(メタデータ) (2025-05-15T18:38:36Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [57.278726604424556]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - GPU-Accelerated Policy Optimization via Batch Automatic Differentiation
of Gaussian Processes for Real-World Control [8.720903734757627]
我々は, 高速な予測サンプリング手法を利用して, 前方通過毎に軌道のバッチ処理を行うことにより, 政策最適化手法を開発した。
重機を用いた基準追従制御実験の訓練方針における本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-02-28T09:31:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。