論文の概要: Reinforcement Learning from Wild Animal Videos
- arxiv url: http://arxiv.org/abs/2412.04273v1
- Date: Thu, 05 Dec 2024 15:55:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:41:40.012049
- Title: Reinforcement Learning from Wild Animal Videos
- Title(参考訳): 野生動物ビデオからの強化学習
- Authors: Elliot Chane-Sane, Constant Roux, Olivier Stasse, Nicolas Mansard,
- Abstract要約: 私たちは、インターネットから何千もの野生動物ビデオを見て、足のついたロボットのロコモーションスキルを学びます。
本稿では,野生動物ビデオからの強化学習(RLWAV)について紹介する。
- 参考スコア(独自算出の注目度): 11.911701745194568
- License:
- Abstract: We propose to learn legged robot locomotion skills by watching thousands of wild animal videos from the internet, such as those featured in nature documentaries. Indeed, such videos offer a rich and diverse collection of plausible motion examples, which could inform how robots should move. To achieve this, we introduce Reinforcement Learning from Wild Animal Videos (RLWAV), a method to ground these motions into physical robots. We first train a video classifier on a large-scale animal video dataset to recognize actions from RGB clips of animals in their natural habitats. We then train a multi-skill policy to control a robot in a physics simulator, using the classification score of a third-person camera capturing videos of the robot's movements as a reward for reinforcement learning. Finally, we directly transfer the learned policy to a real quadruped Solo. Remarkably, despite the extreme gap in both domain and embodiment between animals in the wild and robots, our approach enables the policy to learn diverse skills such as walking, jumping, and keeping still, without relying on reference trajectories nor skill-specific rewards.
- Abstract(参考訳): そこで本研究では,インターネットから何千本もの野生動物ビデオ(自然文書など)を視聴することで,ロボットの歩行スキルを習得することを提案する。
実際、このようなビデオは、ロボットがどう動くべきかを知らせる、多種多様な動作例を提供している。
そこで本研究では,野生動物ビデオからの強化学習(Reinforcement Learning from Wild Animal Videos, RLWAV)を紹介した。
まず、大規模な動物ビデオデータセットにビデオ分類器をトレーニングし、自然の生息地にある動物のRGBクリップから行動を認識する。
次に、物理シミュレーターにおけるロボットの制御のためのマルチスキルポリシーを訓練し、強化学習の報奨として、ロボットの動きの映像を撮影する3人カメラの分類スコアを用いた。
最後に、学習したポリシーを直接実際の4倍のソロに転送する。
注目すべきは、野生動物とロボットのドメインとエンボディメントの双方に極端に差があるにもかかわらず、我々のアプローチは、基準軌跡やスキル固有の報酬に頼ることなく、歩行、ジャンプ、静止などの多様なスキルを学習する政策を可能にすることである。
関連論文リスト
- Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers [36.497624484863785]
Vid2Robotは、人間のビデオで操作タスクを入力として表現し、ロボットアクションを生成する、エンドツーエンドのビデオ条件付きポリシーである。
我々のモデルは、ビデオから人間とロボットのアクションの統一表現を学習するために、プロンプトロボット軌道対の大規模なデータセットを用いて訓練されている。
実世界のロボット上でのVid2Robotの評価を行い、人間のプロンプトビデオを用いた場合、BC-Zよりも20%以上の改善が見られた。
論文 参考訳(メタデータ) (2024-03-19T17:47:37Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Robot Parkour Learning [70.56172796132368]
Parkourは、さまざまな障害物を素早く克服するロボットを必要とする、足で動くロボットにとって、大きな挑戦だ。
我々は,パープルスキルを生成するために,直接コロケーションにインスパイアされた強化学習手法を開発した。
我々は、これらの技術を単一の視覚に基づくパーサーポリシーに抽出し、エゴセントリックな深度カメラを用いて四足歩行ロボットに転送する。
論文 参考訳(メタデータ) (2023-09-11T17:59:17Z) - Lifelike Agility and Play in Quadrupedal Robots using Reinforcement Learning and Generative Pre-trained Models [28.519964304030236]
そこで本研究では,ロボットに事前学習可能で,再利用可能で,拡張可能な,原始的,環境的,戦略的レベルの知識を構築するための階層的枠組みを提案する。
原始的なモジュールは、動物の動きデータから知識を要約し、言語と画像理解における大きな事前学習モデルに触発されて、ロボットが本物の動物のように振る舞うことを刺激する運動制御信号を生成するための深い生成モデルを導入する。
トレーニングされた階層型コントローラを、社内で開発された四足歩行ロボットMAXロボットに適用し、動物を模倣し、複雑な障害物を横切り、設計上の挑戦的なマルチエージェント・チェイスタグゲームで遊ぶ。
論文 参考訳(メタデータ) (2023-08-29T09:22:12Z) - Barkour: Benchmarking Animal-level Agility with Quadruped Robots [70.97471756305463]
脚付きロボットのアジリティを定量化するための障害物コースであるBarkourベンチマークを導入する。
犬の機敏性の競争に触発され、様々な障害と時間に基づくスコアリング機構から構成される。
ベンチマークに対処する2つの方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T02:49:43Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Imitate and Repurpose: Learning Reusable Robot Movement Skills From
Human and Animal Behaviors [28.22210425264389]
そこで本研究では,人間と動物の運動に関する事前知識を用いて,実足歩行ロボットの運動能力を学習する。
我々のアプローチは、人や犬のモーションキャプチャー(MoCap)データを模倣して、運動スキルモジュールを学ぶという以前の研究に基づいている。
論文 参考訳(メタデータ) (2022-03-31T16:01:32Z) - Imitation and Adaptation Based on Consistency: A Quadruped Robot
Imitates Animals from Videos Using Deep Reinforcement Learning [17.01320215435353]
動物の動きを模倣し、数秒のビデオからロボットに適応できる映像模倣適応ネットワーク(VIAN)を提案する。
VIANはノイズを除去し、モーションアダプタを用いて動きのキー情報を抽出し、抽出した動きパターンを深部強化学習(DRL)に適用する。
DRLはビデオからの動きパターンからバランスを保ち、動物の行動を模倣し、最終的には異なる動物の短い動きビデオから歩行やスキルを学ぶことができる。
論文 参考訳(メタデータ) (2022-03-02T15:27:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。