論文の概要: Bridging the Sim-to-Real Gap for Athletic Loco-Manipulation
- arxiv url: http://arxiv.org/abs/2502.10894v1
- Date: Sat, 15 Feb 2025 20:18:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:13:45.823724
- Title: Bridging the Sim-to-Real Gap for Athletic Loco-Manipulation
- Title(参考訳): アスレチックロコマニピュレーションのためのシム・トゥ・リアルギャップのブリッジ
- Authors: Nolan Fey, Gabriel B. Margolis, Martin Peticco, Pulkit Agrawal,
- Abstract要約: 我々は、複雑なアクチュエーター機構のためのsim-to-realギャップをブリッジするためにUnsupervised Actuator Net (UAN)を導入する。
UANは、学習した振る舞いが堅牢で、転送可能であることを保証することで、報酬のハッキングを緩和する。
これらのイノベーションによって、ロボットアスリートは、シミュレーションから現実への顕著な忠実さで持ち上げ、投げ、ドラッグすることを学びました。
- 参考スコア(独自算出の注目度): 18.451995260533682
- License:
- Abstract: Achieving athletic loco-manipulation on robots requires moving beyond traditional tracking rewards - which simply guide the robot along a reference trajectory - to task rewards that drive truly dynamic, goal-oriented behaviors. Commands such as "throw the ball as far as you can" or "lift the weight as quickly as possible" compel the robot to exhibit the agility and power inherent in athletic performance. However, training solely with task rewards introduces two major challenges: these rewards are prone to exploitation (reward hacking), and the exploration process can lack sufficient direction. To address these issues, we propose a two-stage training pipeline. First, we introduce the Unsupervised Actuator Net (UAN), which leverages real-world data to bridge the sim-to-real gap for complex actuation mechanisms without requiring access to torque sensing. UAN mitigates reward hacking by ensuring that the learned behaviors remain robust and transferable. Second, we use a pre-training and fine-tuning strategy that leverages reference trajectories as initial hints to guide exploration. With these innovations, our robot athlete learns to lift, throw, and drag with remarkable fidelity from simulation to reality.
- Abstract(参考訳): ロボットの運動ロコ操作を実現するには、従来のトラッキング報酬(単に基準軌道に沿ってロボットを誘導する)を超越して、本当にダイナミックでゴール指向の振る舞いを駆動するタスク報酬に移行する必要がある。
できるだけ早くボールをスローする」や「できるだけ早くウェイトを持ち上げる」といったコマンドは、運動パフォーマンスに固有の機敏さとパワーを示すようロボットに強制する。
しかしながら、タスク報酬のみによるトレーニングは、これらの報酬は搾取(リワードハッキング)しがちであり、探索プロセスには十分な方向性が欠けている、という2つの大きな課題をもたらす。
これらの問題に対処するため、我々は2段階のトレーニングパイプラインを提案する。
まず,教師なしアクチュエータネット(Unsupervised Actuator Net, UAN)を導入し, 実世界のデータを活用することで, トルクセンサへのアクセスを必要とせずに, 複雑なアクチュエータ機構のシミュレート・トゥ・リアルギャップを橋渡しする。
UANは、学習した振る舞いが堅牢で、転送可能であることを保証することで、報酬のハッキングを緩和する。
第2に、参照軌跡を最初のヒントとして活用して探索をガイドする事前学習および微調整戦略を用いる。
これらのイノベーションによって、ロボットアスリートは、シミュレーションから現実への顕著な忠実さで持ち上げ、投げ、ドラッグすることを学びました。
関連論文リスト
- Moto: Latent Motion Token as the Bridging Language for Robot Manipulation [66.18557528695924]
我々はMotoを紹介する。Motoは、映像コンテンツをラテントモーションTokenizerでラテントモーションTokenシーケンスに変換する。
我々は、モーショントークンによるMoto-GPTの事前学習を行い、多様な視覚的動きの知識を捉えることができる。
実際のロボット動作に先立って学習した動きを転送するために、潜伏した動きのトークン予測と実際のロボット制御をシームレスにブリッジするコファインチューニング戦略を実装した。
論文 参考訳(メタデータ) (2024-12-05T18:57:04Z) - DexDribbler: Learning Dexterous Soccer Manipulation via Dynamic Supervision [26.9579556496875]
移動物体の協調操作と,サッカーなどの足による移動は,学習コミュニティにおいて目立たない注目を集める。
出力をダイナミックな関節レベル移動監視として使用し,必要な身体レベルの動きを正確に計算するフィードバック制御ブロックを提案する。
我々は,我々の学習手法が政策ネットワークをより早く収束させるだけでなく,サッカーロボットが高度な操作を行うことを可能にすることを観察した。
論文 参考訳(メタデータ) (2024-03-21T11:16:28Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Barkour: Benchmarking Animal-level Agility with Quadruped Robots [70.97471756305463]
脚付きロボットのアジリティを定量化するための障害物コースであるBarkourベンチマークを導入する。
犬の機敏性の競争に触発され、様々な障害と時間に基づくスコアリング機構から構成される。
ベンチマークに対処する2つの方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T02:49:43Z) - Learning and Adapting Agile Locomotion Skills by Transferring Experience [71.8926510772552]
本稿では,既存のコントローラから新しいタスクを学習するために経験を移譲することで,複雑なロボティクススキルを訓練するためのフレームワークを提案する。
提案手法は,複雑なアジャイルジャンプ行動の学習,後肢を歩いたまま目標地点への移動,新しい環境への適応を可能にする。
論文 参考訳(メタデータ) (2023-04-19T17:37:54Z) - Legs as Manipulator: Pushing Quadrupedal Agility Beyond Locomotion [34.33972863987201]
我々は四足歩行ロボットを訓練し、前脚を使って壁を登り、ボタンを押し、現実世界でオブジェクトインタラクションを行う。
これらのスキルはカリキュラムを用いてシミュレーションで訓練され,提案したsim2real 変種を用いて実世界へ移行する。
我々は,本手法をシミュレーションと実世界の双方で評価し,短距離および長距離のタスクの実行を成功させたことを示す。
論文 参考訳(メタデータ) (2023-03-20T17:59:58Z) - GraspARL: Dynamic Grasping via Adversarial Reinforcement Learning [16.03016392075486]
動的把握のための逆強化学習フレームワーク,すなわちGraspARLを導入する。
本研究では,ロボットが移動体上の物体を拾い上げ,対向移動体が逃走経路を見つける「移動・放浪」ゲームとして動的把握問題を定式化する。
このようにして、運動器はトレーニング中に様々な移動軌跡を自動生成することができる。また、対向軌道で訓練されたロボットは、様々な動きパターンに一般化することができる。
論文 参考訳(メタデータ) (2022-03-04T03:25:09Z) - Real Robot Challenge using Deep Reinforcement Learning [6.332038240397164]
本稿では,2021年リアルロボットチャレンジの第1フェーズの優勝を詳述する。
課題は、3本指のロボットが特定の目標軌道に沿って立方体を運ばなければならないことだ。
我々は、ロボットシステムの知識を最小限にする必要のある、純粋な強化学習アプローチを使用している。
論文 参考訳(メタデータ) (2021-09-30T16:12:17Z) - Reinforcement Learning for Robust Parameterized Locomotion Control of
Bipedal Robots [121.42930679076574]
シミュレーションにおけるロコモーションポリシをトレーニングするためのモデルフリー強化学習フレームワークを提案する。
ドメインランダム化は、システムダイナミクスのバリエーションにまたがる堅牢な振る舞いを学ぶためのポリシーを奨励するために使用されます。
本研究では、目標歩行速度、歩行高さ、旋回ヨーなどの多目的歩行行動について示す。
論文 参考訳(メタデータ) (2021-03-26T07:14:01Z) - Learning Agile Locomotion via Adversarial Training [59.03007947334165]
本稿では,四足歩行ロボット(主人公)が他のロボット(敵)を追いかけるのを学習し,後者が逃げることを学習するマルチエージェント学習システムを提案する。
この敵対的なトレーニングプロセスは、アジャイルの振る舞いを促進するだけでなく、退屈な環境設計の努力を効果的に軽減します。
1つの敵のみを使用した以前の作品とは対照的に、異なる逃走戦略を専門とする敵のアンサンブルを訓練することは、主人公がアジリティを習得するために不可欠である。
論文 参考訳(メタデータ) (2020-08-03T01:20:37Z) - Learning to Play Table Tennis From Scratch using Muscular Robots [34.34824536814943]
この研究は、(a)人為的ロボットアームを用いた安全クリティカルな動的タスクを初めて学習し、(b)PAM駆動システムで精度の高い要求問題を学び、(c)本物のボールなしで卓球をするようにロボットを訓練する。
ビデオとデータセットは muscleTT.embodied.ml で入手できる。
論文 参考訳(メタデータ) (2020-06-10T16:43:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。