論文の概要: Lessons from Learning to Spin "Pens"
- arxiv url: http://arxiv.org/abs/2407.18902v2
- Date: Wed, 23 Oct 2024 19:56:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 14:50:05.075141
- Title: Lessons from Learning to Spin "Pens"
- Title(参考訳): 学習からスピン"ペン"への教訓
- Authors: Jun Wang, Ying Yuan, Haichuan Che, Haozhi Qi, Yi Ma, Jitendra Malik, Xiaolong Wang,
- Abstract要約: 本研究では,ペンのような物体を回転させる能力を示すことによって,学習に基づく手動操作システムの境界を推し進める。
まず、強化学習を用いて、特権情報でオラクルポリシーを訓練し、シミュレーションにおいて高忠実度軌道データセットを生成する。
次に、これらの実世界の軌道を用いて感覚運動のポリシーを微調整し、実世界の力学に適応させる。
- 参考スコア(独自算出の注目度): 51.9182692233916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-hand manipulation of pen-like objects is an important skill in our daily lives, as many tools such as hammers and screwdrivers are similarly shaped. However, current learning-based methods struggle with this task due to a lack of high-quality demonstrations and the significant gap between simulation and the real world. In this work, we push the boundaries of learning-based in-hand manipulation systems by demonstrating the capability to spin pen-like objects. We first use reinforcement learning to train an oracle policy with privileged information and generate a high-fidelity trajectory dataset in simulation. This serves two purposes: 1) pre-training a sensorimotor policy in simulation; 2) conducting open-loop trajectory replay in the real world. We then fine-tune the sensorimotor policy using these real-world trajectories to adapt it to the real world dynamics. With less than 50 trajectories, our policy learns to rotate more than ten pen-like objects with different physical properties for multiple revolutions. We present a comprehensive analysis of our design choices and share the lessons learned during development.
- Abstract(参考訳): ハンマーやスクリュードライバーのような道具も同じような形をしているので、ペンのような物体を手作業で操作することは私たちの日常生活にとって重要なスキルです。
しかし,従来の学習手法では,高品質な実演が欠如し,シミュレーションと実世界の間に大きなギャップがあるため,この課題に苦慮している。
本研究では,ペンのような物体を回転させる能力を示すことによって,学習に基づく手動操作システムの境界を推し進める。
まず、強化学習を用いて、特権情報でオラクルポリシーを訓練し、シミュレーションにおいて高忠実度軌道データセットを生成する。
これは2つの目的がある。
1) シミュレーションにおける感覚士政策の事前学習
2) 実世界におけるオープンループ軌道再生の実施。
次に、これらの実世界の軌道を用いて感覚運動のポリシーを微調整し、実世界の力学に適応させる。
50個未満の軌道で、我々のポリシーは、複数の革命のために異なる物理的特性を持つ10個以上のペンのような物体を回転させることを学ぶ。
デザイン選択の包括的分析を行い、開発中に学んだ教訓を共有します。
関連論文リスト
- Grasp Anything: Combining Teacher-Augmented Policy Gradient Learning with Instance Segmentation to Grasp Arbitrary Objects [18.342569823885864]
TAPG(Teacher-Augmented Policy Gradient)は、強化学習と政策蒸留を統括する新しい2段階学習フレームワークである。
TAPGは、オブジェクトセグメンテーションに基づいて、誘導的かつ適応的でありながら、センセータポリシーの学習を促進する。
トレーニングされたポリシーは、シミュレーションにおける散らかったシナリオや、人間の理解可能なプロンプトに基づいて現実世界から、多種多様なオブジェクトを順応的に把握する。
論文 参考訳(メタデータ) (2024-03-15T10:48:16Z) - Twisting Lids Off with Two Hands [82.21668778600414]
シミュレーションで訓練された政策を実世界へ効果的かつ効率的に移行する方法を示す。
具体的には,ボトル状物体の蓋を両手でねじる問題について考察する。
これは、バイマガル・マルチフィンガーハンドでそのような機能を実現する最初のsim-to-real RLシステムである。
論文 参考訳(メタデータ) (2024-03-04T18:59:30Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Navigating to Objects in the Real World [76.1517654037993]
本稿では,古典的,モジュール的,エンド・ツー・エンドの学習手法と比較した,意味的視覚ナビゲーション手法に関する大規模な実証的研究について述べる。
モジュラー学習は実世界ではうまく機能し、90%の成功率に達しています。
対照的に、エンド・ツー・エンドの学習は、シミュレーションと現実の間の画像領域の差が大きいため、77%のシミュレーションから23%の実際の成功率へと低下する。
論文 参考訳(メタデータ) (2022-12-02T01:10:47Z) - DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to
Reality [64.51295032956118]
我々は人型ロボットの手で頑健な操作を行える政策を訓練する。
本研究は,各種ハードウェアおよびシミュレータのデクスタラス操作におけるsim-to-real転送の可能性を再確認する。
論文 参考訳(メタデータ) (2022-10-25T01:51:36Z) - Learning Generalizable Dexterous Manipulation from Human Grasp
Affordance [11.060931225148936]
マルチフィンガーハンドによる有害な操作は、ロボット工学における最も難しい問題の1つだ。
模倣学習の最近の進歩は、強化学習と比較してサンプル効率を大幅に改善した。
本稿では,様々な3Dオブジェクトをカテゴリ内に配置した大規模実演を用いて,デクスタラスな操作を学習することを提案する。
論文 参考訳(メタデータ) (2022-04-05T16:26:22Z) - Beyond Pick-and-Place: Tackling Robotic Stacking of Diverse Shapes [29.49728031012592]
複雑な幾何学の物体を用いたロボット積み重ね問題について検討する。
我々は、シンプルな「ピック・アンド・プレイス」ソリューション以上の戦略を必要とするように慎重に設計された、挑戦的で多様なオブジェクトセットを提案する。
本手法は, 視覚に基づく対話型ポリシー蒸留とシミュレーションから現実への伝達を併用した強化学習 (RL) 手法である。
論文 参考訳(メタデータ) (2021-10-12T17:46:06Z) - Solving Challenging Dexterous Manipulation Tasks With Trajectory
Optimisation and Reinforcement Learning [14.315501760755609]
人為的なロボットハンドの使い方を自律的に学ぶ訓練エージェントは、様々な複雑な操作タスクを実行できるシステムに繋がる可能性を秘めている。
まず、現在の強化学習と軌跡最適化技術が困難であるような、シミュレーション操作の難易度を課題として紹介する。
次に、これらの環境における既存の手法よりもはるかに優れた性能を示す、単純な軌道最適化を導入する。
論文 参考訳(メタデータ) (2020-09-09T13:49:52Z) - Learning Dexterous Grasping with Object-Centric Visual Affordances [86.49357517864937]
控えめなロボットハンドは、機敏さと人間のような形態をアピールしています。
本稿では,厳密な把握を学習するためのアプローチを提案する。
私たちのキーとなるアイデアは、オブジェクト中心の視覚的余裕モデルを深い強化学習ループに埋め込むことです。
論文 参考訳(メタデータ) (2020-09-03T04:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。