論文の概要: Bridging the Human to Robot Dexterity Gap through Object-Oriented Rewards
- arxiv url: http://arxiv.org/abs/2410.23289v1
- Date: Wed, 30 Oct 2024 17:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:26:13.954015
- Title: Bridging the Human to Robot Dexterity Gap through Object-Oriented Rewards
- Title(参考訳): オブジェクト指向リワードによる人間とロボットの近接ギャップのブリッジ
- Authors: Irmak Guzey, Yinlong Dai, Georgy Savva, Raunaq Bhirangi, Lerrel Pinto,
- Abstract要約: 人間のビデオから直接ロボットを訓練することは、ロボット工学とコンピュータビジョンの新たな分野だ。
この難しさの重要な理由は、人間の手で訓練されたポリシーが、形態的差異のためにロボットの手に直接移行できないことである。
本稿では,人的ビデオからの報酬を直接計算することで,ポリシーのオンライン微調整を可能にする技術であるHuDORを提案する。
- 参考スコア(独自算出の注目度): 15.605887551756934
- License:
- Abstract: Training robots directly from human videos is an emerging area in robotics and computer vision. While there has been notable progress with two-fingered grippers, learning autonomous tasks for multi-fingered robot hands in this way remains challenging. A key reason for this difficulty is that a policy trained on human hands may not directly transfer to a robot hand due to morphology differences. In this work, we present HuDOR, a technique that enables online fine-tuning of policies by directly computing rewards from human videos. Importantly, this reward function is built using object-oriented trajectories derived from off-the-shelf point trackers, providing meaningful learning signals despite the morphology gap and visual differences between human and robot hands. Given a single video of a human solving a task, such as gently opening a music box, HuDOR enables our four-fingered Allegro hand to learn the task with just an hour of online interaction. Our experiments across four tasks show that HuDOR achieves a 4x improvement over baselines. Code and videos are available on our website, https://object-rewards.github.io.
- Abstract(参考訳): 人間のビデオから直接ロボットを訓練することは、ロボット工学とコンピュータビジョンの新たな分野だ。
2本指のグリップパーは目覚ましい進歩を遂げているが、この方法で複数の指のロボットハンドの自律的なタスクを学習することは依然として難しい。
この難しさの重要な理由は、人間の手で訓練されたポリシーが、形態的差異のためにロボットの手に直接移行できないことである。
本研究では,人的ビデオからの報酬を直接計算することで,ポリシーのオンライン微調整を可能にする技術であるHuDORを提案する。
重要なことは、この報酬関数はオフザシェルフポイントトラッカーから派生したオブジェクト指向の軌道を用いて構築され、人手とロボット手の形態的差異や視覚的差異にもかかわらず、有意義な学習信号を提供する。
HuDORは4本指のAllegroの手を使って、たった1時間でタスクを学習します。
4つのタスクにわたる実験の結果,HuDORはベースラインよりも4倍改善されていることがわかった。
コードとビデオは私たちのWebサイト https://object-rewards.github.io.com で公開されている。
関連論文リスト
- Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文 参考訳(メタデータ) (2023-04-17T17:59:34Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z) - VideoDex: Learning Dexterity from Internet Videos [27.49510986378025]
私たちは、人間の手を使ったインターネットビデオという、現実世界での体験として、次のベストなものを活用することを提案する。
視覚的特徴などの視覚的先行情報は、しばしばビデオから学習されるが、ビデオからのより多くの情報は、より強力な先行として利用することができる。
我々は、人間のビデオデータセットから視覚的、行動的、身体的優先事項を活用する学習アルゴリズム、VideoDexを構築し、ロボットの振る舞いをガイドする。
論文 参考訳(メタデータ) (2022-12-08T18:59:59Z) - HERD: Continuous Human-to-Robot Evolution for Learning from Human
Demonstration [57.045140028275036]
本研究では,マイクロ進化的強化学習を用いて,操作スキルを人間からロボットに伝達可能であることを示す。
本稿では,ロボットの進化経路とポリシーを協調的に最適化する多次元進化経路探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-08T15:56:13Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Robotic Telekinesis: Learning a Robotic Hand Imitator by Watching Humans
on Youtube [24.530131506065164]
我々は、人間なら誰でもロボットの手と腕を制御できるシステムを構築します。
ロボットは、人間のオペレーターを1台のRGBカメラで観察し、その動作をリアルタイムで模倣する。
我々はこのデータを利用して、人間の手を理解するシステムを訓練し、人間のビデオストリームをスムーズで、素早く、安全に、意味論的に誘導デモに類似したロボットのハンドアーム軌道に再ターゲティングする。
論文 参考訳(メタデータ) (2022-02-21T18:59:59Z) - DexVIP: Learning Dexterous Grasping with Human Hand Pose Priors from
Video [86.49357517864937]
DexVIPは,人間と物体のインタラクションビデオから,器用なロボットの把握を学習する手法である。
我々は、人間とオブジェクトのインタラクションビデオから把握した画像をキュレートし、エージェントの手のポーズに先行する。
DexVIPは、手ポーズの無い既存のアプローチや、特殊な遠隔操作機器に頼っている既存のアプローチと良好に比較できることを実証する。
論文 参考訳(メタデータ) (2022-02-01T00:45:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。