論文の概要: Slot-Level Robotic Placement via Visual Imitation from Single Human Video
- arxiv url: http://arxiv.org/abs/2504.01959v1
- Date: Wed, 02 Apr 2025 17:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:55:26.896575
- Title: Slot-Level Robotic Placement via Visual Imitation from Single Human Video
- Title(参考訳): 単眼映像からの視覚的模倣によるスロットレベルロボット配置
- Authors: Dandan Shan, Kaichun Mo, Wei Yang, Yu-Wei Chao, David Fouhey, Dieter Fox, Arsalan Mousavian,
- Abstract要約: 人間のデモビデオを用いてロボットに新しいタスクを教えるという課題に対処する。
本稿では,複数の高度な視覚基盤モデルとスロットレベル配置検出器Slot-Netを活用するモジュールシステムであるSLeRPを提案する。
- 参考スコア(独自算出の注目度): 43.71981951957892
- License:
- Abstract: The majority of modern robot learning methods focus on learning a set of pre-defined tasks with limited or no generalization to new tasks. Extending the robot skillset to novel tasks involves gathering an extensive amount of training data for additional tasks. In this paper, we address the problem of teaching new tasks to robots using human demonstration videos for repetitive tasks (e.g., packing). This task requires understanding the human video to identify which object is being manipulated (the pick object) and where it is being placed (the placement slot). In addition, it needs to re-identify the pick object and the placement slots during inference along with the relative poses to enable robot execution of the task. To tackle this, we propose SLeRP, a modular system that leverages several advanced visual foundation models and a novel slot-level placement detector Slot-Net, eliminating the need for expensive video demonstrations for training. We evaluate our system using a new benchmark of real-world videos. The evaluation results show that SLeRP outperforms several baselines and can be deployed on a real robot.
- Abstract(参考訳): 現代のロボット学習手法の大半は、新しいタスクを限定的あるいは全く一般化せずに、事前定義されたタスクの集合を学習することに焦点を当てている。
ロボットのスキルセットを新しいタスクに拡張するには、追加タスクのための大量のトレーニングデータを集める必要がある。
本稿では,人間のデモビデオを用いてロボットに新しいタスクを教えるという課題に対処する(例えば,パッキング)。
このタスクでは、操作対象(ピックオブジェクト)と配置対象(配置スロット)を特定するために、人間のビデオを理解する必要がある。
さらに、ロボットによるタスク実行を可能にするために、相対的なポーズとともに、推論中のピックオブジェクトと配置スロットを再識別する必要がある。
そこで本研究では,複数の高度な視覚基盤モデルとスロットレベル配置検出器Slot-Netを活用するモジュールシステムであるSLeRPを提案する。
実世界のビデオのベンチマークを用いて,本システムの評価を行った。
評価の結果,SLeRPは複数のベースラインを上回り,実際のロボットに展開可能であることがわかった。
関連論文リスト
- Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Actionable Models: Unsupervised Offline Reinforcement Learning of
Robotic Skills [93.12417203541948]
与えられたデータセットの任意の目標状態に到達するために学習することによって、環境の機能的な理解を学ぶ目的を提案する。
提案手法は,高次元カメラ画像上で動作し,これまで見つからなかったシーンやオブジェクトに一般化した実ロボットの様々なスキルを学習することができる。
論文 参考訳(メタデータ) (2021-04-15T20:10:11Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。