論文の概要: Estimator-Coupled Reinforcement Learning for Robust Purely Tactile
In-Hand Manipulation
- arxiv url: http://arxiv.org/abs/2311.04060v1
- Date: Tue, 7 Nov 2023 15:19:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 14:57:54.704642
- Title: Estimator-Coupled Reinforcement Learning for Robust Purely Tactile
In-Hand Manipulation
- Title(参考訳): 頑健な純粋触手操作のための推定子結合強化学習
- Authors: Lennart R\"ostel, Johannes Pitz, Leon Sievers, Berthold B\"auml
- Abstract要約: 我々は、純粋に触覚的で、ゴールコンディションがあり、手元を下向きに向けて、手元を直立させるという挑戦的な課題に取り組む。
シミュレーションにおいてすでにトレーニング中の状態推定器に制御ポリシを結合することにより,この問題を解決する。
当社のGPUアクセラレート実装では、スクラッチからの学習は、単一の低コストGPUで6.5時間のトレーニング時間のみを要します。
- 参考スコア(独自算出の注目度): 4.3012765978447565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper identifies and addresses the problems with naively combining
(reinforcement) learning-based controllers and state estimators for robotic
in-hand manipulation. Specifically, we tackle the challenging task of purely
tactile, goal-conditioned, dextrous in-hand reorientation with the hand
pointing downwards. Due to the limited sensing available, many control
strategies that are feasible in simulation when having full knowledge of the
object's state do not allow for accurate state estimation. Hence, separately
training the controller and the estimator and combining the two at test time
leads to poor performance. We solve this problem by coupling the control policy
to the state estimator already during training in simulation. This approach
leads to more robust state estimation and overall higher performance on the
task while maintaining an interpretability advantage over end-to-end policy
learning. With our GPU-accelerated implementation, learning from scratch takes
a median training time of only 6.5 hours on a single, low-cost GPU. In
simulation experiments with the DLR-Hand II and for four significantly
different object shapes, we provide an in-depth analysis of the performance of
our approach. We demonstrate the successful sim2real transfer by rotating the
four objects to all 24 orientations in the $\pi/2$ discretization of SO(3),
which has never been achieved for such a diverse set of shapes. Finally, our
method can reorient a cube consecutively to nine goals (median), which was
beyond the reach of previous methods in this challenging setting.
- Abstract(参考訳): 本稿では,ロボットハンド操作のための学習ベースコントローラと状態推定器とを自然に組み合わせた問題を特定し,解決する。
具体的には、手を下向きに向けて、純粋に触覚、ゴールコンディショニング、多角的な手のリオリエンテーションという課題に取り組む。
センサが限られているため、オブジェクトの状態の完全な知識を持つ場合、シミュレーションで実現可能な多くの制御戦略は、正確な状態推定を許さない。
したがって、コントローラと推定器を別々にトレーニングし、テスト時に2つを組み合わせることでパフォーマンスが低下する。
シミュレーションのトレーニング中に,制御ポリシーを状態推定器に結合することで,この問題を解決する。
このアプローチは、エンドツーエンドのポリシー学習よりも解釈可能性のアドバンテージを維持しながら、より堅牢な状態推定とタスク全体のパフォーマンスをもたらす。
当社のGPUアクセラレート実装では、スクラッチからの学習は、単一の低コストGPUで6.5時間のトレーニング時間のみを要します。
DLR-Hand IIと4つの異なる物体形状のシミュレーション実験において,本手法の性能を詳細に解析する。
4つの物体を24方向全てに回転させることで、sim2実数移動が成功したことを、so(3)の$\pi/2$離散化で証明する。
最後に,本手法は,従来手法の到達範囲を超えていた9つの目標 (median) に連続して立方体を再配置することができる。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - DexPBT: Scaling up Dexterous Manipulation for Hand-Arm Systems with
Population Based Training [10.808149303943948]
マルチフィンガーハンドエンドエフェクタを備えた模擬片腕または2腕ロボットを用いて,デキスタスな物体操作を学習する。
我々は、深層強化学習の探索能力を大幅に増幅できる分散型人口ベーストレーニング(PBT)アルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-05-20T07:25:27Z) - Re-Evaluating LiDAR Scene Flow for Autonomous Driving [80.37947791534985]
自己教師型LiDARシーンフローの一般的なベンチマークは、動的動き、非現実的な対応、非現実的なサンプリングパターンの非現実的な速度を持つ。
実世界のデータセットのスイート上で,トップメソッドのスイートを評価する。
学習に重点を置いているにもかかわらず、ほとんどのパフォーマンス向上は前処理と後処理のステップによって引き起こされる。
論文 参考訳(メタデータ) (2023-04-04T22:45:50Z) - DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to
Reality [64.51295032956118]
我々は人型ロボットの手で頑健な操作を行える政策を訓練する。
本研究は,各種ハードウェアおよびシミュレータのデクスタラス操作におけるsim-to-real転送の可能性を再確認する。
論文 参考訳(メタデータ) (2022-10-25T01:51:36Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Pushing the Limits of Learning-based Traversability Analysis for
Autonomous Driving on CPU [1.841057463340778]
本稿では,リアルタイム機械学習に基づくトラバーサビリティ分析手法の提案と評価を行う。
新しい幾何学的特徴と視覚的特徴を統合し、重要な実装の詳細に焦点を当てることで、パフォーマンスと信頼性が著しく向上することを示します。
提案手法は、屋外運転シナリオのパブリックデータセットに関する最先端のDeep Learningアプローチと比較されている。
論文 参考訳(メタデータ) (2022-06-07T07:57:34Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Practical Imitation Learning in the Real World via Task Consistency Loss [18.827979446629296]
本稿では,機能レベルと行動予測レベルの両方において,シミュレートと実際のアライメントを促進する自己監督的損失を提案する。
我々は、シミュレートとリアルで遠隔操作されたデモンストレーションを16.2時間しか使っていない10のシーンで80%の成功を達成した。
論文 参考訳(メタデータ) (2022-02-03T21:43:06Z) - Sim-to-real reinforcement learning applied to end-to-end vehicle control [0.0]
本研究では車線追従や衝突回避といった車両制御問題のエンドツーエンド強化学習について検討する。
我々の制御ポリシーでは、実際の2車線の道路の右車線を追従するために小型ロボットを制御できますが、その訓練はシミュレーションでのみ行われました。
論文 参考訳(メタデータ) (2020-12-14T12:30:47Z) - Fast Uncertainty Quantification for Deep Object Pose Estimation [91.09217713805337]
深層学習に基づくオブジェクトポーズ推定は、しばしば信頼できない、自信過剰である。
本研究では,6-DoFオブジェクトのポーズ推定のための,シンプルで効率的かつプラグアンドプレイなUQ手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。