論文の概要: End-to-end RL Improves Dexterous Grasping Policies
- arxiv url: http://arxiv.org/abs/2509.16434v1
- Date: Fri, 19 Sep 2025 21:21:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.78714
- Title: End-to-end RL Improves Dexterous Grasping Policies
- Title(参考訳): エンド・ツー・エンドのRLはデキサス・グラッピング・ポリシーを改善した
- Authors: Ritvik Singh, Karl Van Wyk, Pieter Abbeel, Jitendra Malik, Nathan Ratliff, Ankur Handa,
- Abstract要約: 本研究は,画像に基づくエンドツーエンド学習のスケールアップ手法について,腕+手システムによる器用な把握について検討する。
我々は、深度と状態に基づく政策の両方をステレオRGBネットワークに訓練・蒸留し、深度蒸留がシミュレーションと現実の両方においてより良い結果をもたらすことを示す。
- 参考スコア(独自算出の注目度): 64.8476328230578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work explores techniques to scale up image-based end-to-end learning for dexterous grasping with an arm + hand system. Unlike state-based RL, vision-based RL is much more memory inefficient, resulting in relatively low batch sizes, which is not amenable for algorithms like PPO. Nevertheless, it is still an attractive method as unlike the more commonly used techniques which distill state-based policies into vision networks, end-to-end RL can allow for emergent active vision behaviors. We identify a key bottleneck in training these policies is the way most existing simulators scale to multiple GPUs using traditional data parallelism techniques. We propose a new method where we disaggregate the simulator and RL (both training and experience buffers) onto separate GPUs. On a node with four GPUs, we have the simulator running on three of them, and PPO running on the fourth. We are able to show that with the same number of GPUs, we can double the number of existing environments compared to the previous baseline of standard data parallelism. This allows us to train vision-based environments, end-to-end with depth, which were previously performing far worse with the baseline. We train and distill both depth and state-based policies into stereo RGB networks and show that depth distillation leads to better results, both in simulation and reality. This improvement is likely due to the observability gap between state and vision policies which does not exist when distilling depth policies into stereo RGB. We further show that the increased batch size brought about by disaggregated simulation also improves real world performance. When deploying in the real world, we improve upon the previous state-of-the-art vision-based results using our end-to-end policies.
- Abstract(参考訳): 本研究は,画像に基づくエンドツーエンド学習のスケールアップ手法について,腕+手システムによる器用な把握について検討する。
状態ベースのRLとは異なり、視覚ベースのRLはメモリ非効率であり、比較的バッチサイズが小さく、PPOのようなアルゴリズムでは利用できない。
それでも、状態ベースのポリシーを視覚ネットワークに蒸留する一般的な手法とは異なり、エンド・ツー・エンドのRLは突発的な視覚行動を可能にするため、魅力的な方法である。
これらのポリシーをトレーニングする上で重要なボトルネックは、従来のデータ並列化技術を使用して、既存のシミュレータを複数のGPUにスケールする方法です。
本稿では,シミュレータとRL(トレーニングと経験バッファ)を別個のGPUに分解する手法を提案する。
4つのGPUを持つノードでは、シミュレータを3つで実行し、PPOを4つで実行しています。
我々は、同じGPU数で、従来の標準データ並列性のベースラインと比較して、既存の環境の数を2倍にすることができることを示すことができる。
これにより、これまでベースラインではるかにパフォーマンスが悪くなっていた、深度のあるエンドツーエンドで、ビジョンベースの環境をトレーニングすることができます。
我々は、深度と状態に基づく政策の両方をステレオRGBネットワークに訓練・蒸留し、深度蒸留がシミュレーションと現実の両方においてより良い結果をもたらすことを示す。
この改善は、立体RGBに深度ポリシーを蒸留する際に存在しない状態とビジョンポリシーの間の可観測性ギャップに起因する可能性が高い。
さらに,非凝集シミュレーションによるバッチサイズの増加により,実環境の性能も向上することを示した。
実世界でのデプロイでは、エンドツーエンドのポリシを使用して、これまでの最先端のビジョンベースの結果を改善します。
関連論文リスト
- PICT -- A Differentiable, GPU-Accelerated Multi-Block PISO Solver for Simulation-Coupled Learning Tasks in Fluid Dynamics [59.38498811984876]
我々はPyTorchで符号化された可変圧単純化解器であるPICTをGPU(Graphics-Processing-unit)をサポートした流体シミュレータとして提案する。
まず,様々なベンチマークにおいて,フォワードシミュレーションと導出した勾配の精度を検証した。
2次元, 3次元の複雑な乱流モデルの学習には, 解法によって得られる勾配が有効であることを示す。
論文 参考訳(メタデータ) (2025-05-22T17:55:10Z) - Accelerating Visual-Policy Learning through Parallel Differentiable Simulation [3.70729078195191]
本稿では、微分可能シミュレーションと一階解析的ポリシー勾配を利用する視覚政策学習のための計算効率の良いアルゴリズムを提案する。
我々のアプローチは、計算グラフからレンダリングプロセスを分離し、既存の微分可能シミュレーションエコシステムとのシームレスな統合を可能にします。
特に,本手法は最終リターンで4時間分の改善を実現し,単一のGPU上で4時間以内にヒューマノイド動作ポリシーを学習することに成功した。
論文 参考訳(メタデータ) (2025-05-15T18:38:36Z) - Dream to Drive: Model-Based Vehicle Control Using Analytic World Models [67.20720048255362]
我々は次の状態予測器、最適プランナー、最適逆状態の学習を可能にする3つの新しいタスク設定を提案する。
現在の動作に関して次のシミュレータ状態の勾配を必要とする分析ポリシ(APG)とは異なり、提案したセットアップは、現在の状態に関して次の状態の勾配に依存する。
論文 参考訳(メタデータ) (2025-02-14T08:46:49Z) - SAPG: Split and Aggregate Policy Gradients [37.433915947580076]
本稿では,大規模環境をチャンクに分割し,重要サンプリングにより融合させることにより,大規模環境を効果的に活用できる新しいオンラインRLアルゴリズムを提案する。
我々のアルゴリズムはSAPGと呼ばれ、バニラPPOや他の強力なベースラインが高い性能を達成できない様々な困難環境において、非常に高い性能を示す。
論文 参考訳(メタデータ) (2024-07-29T17:59:50Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Efficient Deep Visual and Inertial Odometry with Adaptive Visual
Modality Selection [12.754974372231647]
本稿では,適応型深層学習に基づくVIO手法を提案する。
Gumbel-Softmax のトリックを用いてポリシーネットワークをトレーニングし、エンドツーエンドのシステムトレーニングで決定プロセスを差別化できるようにする。
実験結果から,本手法は全モードベースラインと同じような,あるいはさらに優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-12T16:17:49Z) - Distilled Domain Randomization [23.178141671320436]
本稿では,無作為な物理シミュレーションからの強化学習と政策蒸留を組み合わせることを提案する。
我々のアルゴリズムはDistilled Domain Randomization (DiDoR)と呼ばれ、ドメインの専門家であるいわゆる教師ポリシーを蒸留する。
このようにして、DiDoRは、ターゲットドメインからのデータを必要とせずに、シミュレーションから現実へ直接移行するコントローラを学習する。
論文 参考訳(メタデータ) (2021-12-06T16:35:08Z) - PlayVirtual: Augmenting Cycle-Consistent Virtual Trajectories for
Reinforcement Learning [84.30765628008207]
本稿では,RL特徴表現学習におけるデータ効率を向上させるために,サイクル一貫性のある仮想トラジェクトリを付加するPlayVirtualという新しい手法を提案する。
本手法は,両ベンチマークにおいて,最先端の手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2021-06-08T07:37:37Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Discrete-to-Deep Supervised Policy Learning [2.212418070140923]
本稿では,強化学習におけるニューラルネットワークのトレーニングのためのD2D-SPL(Disdisrete-to-Deep Supervised Policy Learning)を提案する。
D2D-SPLは単一のエージェントを使用し、経験的な再生を必要とせず、最先端のメソッドよりも高速に学習する。
論文 参考訳(メタデータ) (2020-05-05T10:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。