論文の概要: VideoDex: Learning Dexterity from Internet Videos
- arxiv url: http://arxiv.org/abs/2212.04498v1
- Date: Thu, 8 Dec 2022 18:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 14:28:56.825539
- Title: VideoDex: Learning Dexterity from Internet Videos
- Title(参考訳): VideoDex:インターネットビデオからデクサリティを学ぶ
- Authors: Kenneth Shaw, Shikhar Bahl, Deepak Pathak
- Abstract要約: 私たちは、人間の手を使ったインターネットビデオという、現実世界での体験として、次のベストなものを活用することを提案する。
視覚的特徴などの視覚的先行情報は、しばしばビデオから学習されるが、ビデオからのより多くの情報は、より強力な先行として利用することができる。
我々は、人間のビデオデータセットから視覚的、行動的、身体的優先事項を活用する学習アルゴリズム、VideoDexを構築し、ロボットの振る舞いをガイドする。
- 参考スコア(独自算出の注目度): 27.49510986378025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To build general robotic agents that can operate in many environments, it is
often imperative for the robot to collect experience in the real world.
However, this is often not feasible due to safety, time, and hardware
restrictions. We thus propose leveraging the next best thing as real-world
experience: internet videos of humans using their hands. Visual priors, such as
visual features, are often learned from videos, but we believe that more
information from videos can be utilized as a stronger prior. We build a
learning algorithm, VideoDex, that leverages visual, action, and physical
priors from human video datasets to guide robot behavior. These actions and
physical priors in the neural network dictate the typical human behavior for a
particular robot task. We test our approach on a robot arm and dexterous
hand-based system and show strong results on various manipulation tasks,
outperforming various state-of-the-art methods. Videos at
https://video-dex.github.io
- Abstract(参考訳): 多くの環境で動作可能な一般的なロボットエージェントを構築するには、実世界での経験を収集することがしばしば不可欠である。
しかし、安全、時間、ハードウェアの制限のため、これは実現不可能であることが多い。
そこで本研究では,人間の手によるインターネット動画を実世界体験として活用することを提案する。
視覚機能などの視覚プライオリティはビデオから学ぶことが多いが、より強力なプリオリティとしてビデオからの情報を活用できると信じている。
我々は、人間のビデオデータセットから視覚、行動、物理的事前情報を利用してロボットの動作を誘導する学習アルゴリズムvideodexを構築した。
ニューラルネットワークにおけるこれらの行動と物理的先行は、特定のロボットタスクの典型的な人間の振る舞いを規定する。
ロボットアームとデクスタラスハンドベースシステムを用いてこのアプローチをテストし,様々な操作タスクにおいて,最先端の手法よりも優れた結果を示す。
https://video-dex.github.io
関連論文リスト
- Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers [36.497624484863785]
ロボットのための新しいエンドツーエンドビデオベース学習フレームワークであるVid2Robotを紹介した。
Vid2Robotは、操作タスクと現在の視覚的観察のデモビデオから、ロボットのアクションを直接生成する。
これは、人間のビデオとロボットの軌道の大規模なデータセットに基づいて訓練された統一表現モデルによって達成される。
論文 参考訳(メタデータ) (2024-03-19T17:47:37Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文 参考訳(メタデータ) (2023-04-17T17:59:34Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - DexVIP: Learning Dexterous Grasping with Human Hand Pose Priors from
Video [86.49357517864937]
DexVIPは,人間と物体のインタラクションビデオから,器用なロボットの把握を学習する手法である。
我々は、人間とオブジェクトのインタラクションビデオから把握した画像をキュレートし、エージェントの手のポーズに先行する。
DexVIPは、手ポーズの無い既存のアプローチや、特殊な遠隔操作機器に頼っている既存のアプローチと良好に比較できることを実証する。
論文 参考訳(メタデータ) (2022-02-01T00:45:57Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。