論文の概要: Learning by Watching: A Review of Video-based Learning Approaches for
Robot Manipulation
- arxiv url: http://arxiv.org/abs/2402.07127v1
- Date: Sun, 11 Feb 2024 08:41:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 17:34:20.629284
- Title: Learning by Watching: A Review of Video-based Learning Approaches for
Robot Manipulation
- Title(参考訳): 視聴による学習:ロボット操作のためのビデオベース学習アプローチのレビュー
- Authors: Chrisantus Eze and Christopher Crick
- Abstract要約: 最近の研究は、オンラインで公開されている豊富な動画を受動的に視聴することで、学習操作のスキルを探求している。
本調査では,映像特徴表現学習技術,物価理解,3次元ハンド・ボディ・モデリング,大規模ロボット資源などの基礎を概観する。
ロボット操作の一般化とサンプル効率を高めるために,大規模な人的映像を観察することのみから学習する方法を論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robot learning of manipulation skills is hindered by the scarcity of diverse,
unbiased datasets. While curated datasets can help, challenges remain in
generalizability and real-world transfer. Meanwhile, large-scale "in-the-wild"
video datasets have driven progress in computer vision through self-supervised
techniques. Translating this to robotics, recent works have explored learning
manipulation skills by passively watching abundant videos sourced online.
Showing promising results, such video-based learning paradigms provide scalable
supervision while reducing dataset bias. This survey reviews foundations such
as video feature representation learning techniques, object affordance
understanding, 3D hand/body modeling, and large-scale robot resources, as well
as emerging techniques for acquiring robot manipulation skills from
uncontrolled video demonstrations. We discuss how learning only from observing
large-scale human videos can enhance generalization and sample efficiency for
robotic manipulation. The survey summarizes video-based learning approaches,
analyses their benefits over standard datasets, survey metrics, and benchmarks,
and discusses open challenges and future directions in this nascent domain at
the intersection of computer vision, natural language processing, and robot
learning.
- Abstract(参考訳): 操作スキルのロボット学習は、多様な偏見のないデータセットの不足によって妨げられている。
キュレートされたデータセットは役立つが、一般的な可能性と現実世界の転送には課題が残る。
一方、大規模ビデオデータセットは、自己監督技術によってコンピュータビジョンの進歩を促している。
これをロボティクスに翻訳した最近の研究は、オンラインソースの豊富な動画を受動的に視聴することで、操作スキルの習得を探求している。
有望な結果を示すビデオベースの学習パラダイムは、データセットバイアスを低減しつつ、スケーラブルな監視を提供する。
本調査は,映像特徴表現学習技術,オブジェクトアフォーアンス理解,3次元ハンド/ボディモデリング,大規模ロボット資源,非制御映像からロボット操作スキルを取得するための新たな技術などの基礎をレビューする。
ロボット操作の一般化とサンプル効率を高めるために,大規模な人的映像を観察することのみから学習する方法を論じる。
この調査は、ビデオベースの学習アプローチを要約し、標準データセット、調査メトリクス、ベンチマークよりもそのメリットを分析し、コンピュータビジョン、自然言語処理、ロボット学習の交差点における、この生まれたばかりの領域におけるオープンチャレンジと今後の方向性について論じている。
関連論文リスト
- A Survey of Embodied Learning for Object-Centric Robotic Manipulation [27.569063968870868]
オブジェクト中心のロボット操作のための身体学習は、AIの急速に発展し、挑戦的な分野である。
データ駆動機械学習とは異なり、具体化学習は環境との物理的相互作用を通じてロボット学習に焦点を当てる。
論文 参考訳(メタデータ) (2024-08-21T11:32:09Z) - VITAL: Visual Teleoperation to Enhance Robot Learning through Human-in-the-Loop Corrections [10.49712834719005]
本稿では,VITAL と呼ばれる双方向操作作業のための低コストな視覚遠隔操作システムを提案する。
われわれのアプローチは、安価なハードウェアとビジュアル処理技術を利用してデモを収集する。
実環境と模擬環境の両方を活用することにより,学習方針の一般化性と堅牢性を高める。
論文 参考訳(メタデータ) (2024-07-30T23:29:47Z) - Towards Generalist Robot Learning from Internet Video: A Survey [56.621902345314645]
本稿では,LfV(Learning from Videos)の新たな分野について概説する。
LfVは、従来のロボットデータを大規模なインターネットビデオデータで強化することで、ロボットデータのボトルネックに対処することを目指している。
本稿では、大規模インターネットビデオから知識を抽出し、LfVにおける重要な課題に対処し、映像データを用いて下流ロボットと強化学習を促進するための現在の手法についてレビューする。
論文 参考訳(メタデータ) (2024-04-30T15:57:41Z) - Exploring Visual Pre-training for Robot Manipulation: Datasets, Models
and Methods [14.780597545674157]
本稿では,3つの基本的視点から,視覚的事前学習がロボット操作作業に及ぼす影響について検討する。
自己教師型学習と教師型学習を組み合わせた視覚的事前学習方式Vi-PRoMを提案する。
論文 参考訳(メタデータ) (2023-08-07T14:24:52Z) - RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in
One-Shot [56.130215236125224]
オープンドメインでのロボット操作における重要な課題は、ロボットの多様性と一般化可能なスキルの獲得方法である。
単発模倣学習の最近の研究は、訓練されたポリシーを実証に基づく新しいタスクに移行する可能性を示唆している。
本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
論文 参考訳(メタデータ) (2023-07-02T15:33:31Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z) - Actionable Models: Unsupervised Offline Reinforcement Learning of
Robotic Skills [93.12417203541948]
与えられたデータセットの任意の目標状態に到達するために学習することによって、環境の機能的な理解を学ぶ目的を提案する。
提案手法は,高次元カメラ画像上で動作し,これまで見つからなかったシーンやオブジェクトに一般化した実ロボットの様々なスキルを学習することができる。
論文 参考訳(メタデータ) (2021-04-15T20:10:11Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。