Fugu-MT 論文翻訳(概要): Vision-based Manipulation from Single Human Video with Open-World Object Graphs

論文の概要: Vision-based Manipulation from Single Human Video with Open-World Object Graphs

arxiv url: http://arxiv.org/abs/2405.20321v1
Date: Thu, 30 May 2024 17:56:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 13:00:01.246785
Title: Vision-based Manipulation from Single Human Video with Open-World Object Graphs
Title（参考訳）: オープンワールドオブジェクトグラフを用いた単眼映像からの視覚に基づく操作
Authors: Yifeng Zhu, Arisrei Lim, Peter Stone, Yuke Zhu,
Abstract要約: 我々は、人間のビデオから視覚に基づく操作スキルを学ぶために、ロボットに力を与えるオブジェクト中心のアプローチを提案する。 ORIONは,単一のRGB-Dビデオからオブジェクト中心の操作計画を抽出することで,この問題に対処するアルゴリズムである。
参考スコア（独自算出の注目度）: 58.23098483464538
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present an object-centric approach to empower robots to learn vision-based manipulation skills from human videos. We investigate the problem of imitating robot manipulation from a single human video in the open-world setting, where a robot must learn to manipulate novel objects from one video demonstration. We introduce ORION, an algorithm that tackles the problem by extracting an object-centric manipulation plan from a single RGB-D video and deriving a policy that conditions on the extracted plan. Our method enables the robot to learn from videos captured by daily mobile devices such as an iPad and generalize the policies to deployment environments with varying visual backgrounds, camera angles, spatial layouts, and novel object instances. We systematically evaluate our method on both short-horizon and long-horizon tasks, demonstrating the efficacy of ORION in learning from a single human video in the open world. Videos can be found in the project website https://ut-austin-rpl.github.io/ORION-release.
Abstract（参考訳）: 我々は、人間のビデオから視覚に基づく操作スキルを学ぶために、ロボットに力を与えるオブジェクト中心のアプローチを提案する。本研究では,ロボットが1つのビデオデモから新しい物体を操作することを学ばなければならないオープンワールド環境において,単一の人間のビデオからロボット操作を模倣する問題について検討する。 ORIONは,単一のRGB-Dビデオからオブジェクト中心の操作計画を抽出し,抽出した計画に条件を付けたポリシーを導出することにより,この問題に対処するアルゴリズムである。ロボットは,iPadなどの日常的なモバイルデバイスで撮影した映像から学習し,視覚的背景,カメラアングル,空間的レイアウト,新しいオブジェクトインスタンスなど,様々な環境へのポリシーを一般化する。本研究では,オープンワールドにおける1つの人間ビデオから学習する上でのORIONの有効性を実証し,短軸タスクと長軸タスクの両方において手法を体系的に評価した。ビデオはプロジェクトのWebサイトhttps://ut-austin-rpl.github.io/ORION-releaseで見ることができる。

関連論文リスト

Dexterous Manipulation Policies from RGB Human Videos via 3D Hand-Object Trajectory Reconstruction [24.49384094440561]
我々は,RGBのヒューマンビデオから直接デクスタラスな操作を学習する,デバイスフリーのフレームワークであるVIDEOMANIPを提案する。シミュレーションでは、学習した把握モデルはインスパイアハンドを用いて20種類のオブジェクトに対して70.25%の成功率を達成する。実世界では、RGBビデオから訓練された操作ポリシーは、LEAPハンドを使用して7つのタスクで平均62.86%の成功率を達成する。
論文参考訳（メタデータ） (2026-02-09T18:56:02Z)
VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
OKAMI: Teaching Humanoid Robots Manipulation Skills through Single Video Imitation [35.97702591413093]
一つのRGB-Dビデオから操作計画を生成する方法であるOKAMIを紹介する。 OKAMIは、オープンワールドビジョンモデルを使用して、タスク関連オブジェクトを特定し、身体の動きと手ポーズを別々に再ターゲットする。
論文参考訳（メタデータ） (2024-10-15T17:17:54Z)
Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文参考訳（メタデータ） (2024-05-02T17:56:55Z)
Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文参考訳（メタデータ） (2024-02-22T09:48:47Z)
Learning to Act from Actionless Videos through Dense Correspondences [87.1243107115642]
本稿では,様々なロボットや環境にまたがる多様なタスクを確実に実行可能なビデオベースのロボットポリシーを構築するためのアプローチを提案する。本手法は,ロボットの目標を指定するための汎用表現として,状態情報と行動情報の両方を符号化するタスク非依存表現として画像を利用する。テーブルトップ操作とナビゲーションタスクの学習方針における我々のアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-10-12T17:59:23Z)
Giving Robots a Hand: Learning Generalizable Manipulation with Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文参考訳（メタデータ） (2023-07-12T07:04:53Z)
Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文参考訳（メタデータ） (2023-05-10T16:25:42Z)
Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。我々の枠組みは、人間の手の動きを予測することに基づいている。トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文参考訳（メタデータ） (2023-02-03T21:39:52Z)
Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。 DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。 DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文参考訳（メタデータ） (2021-03-31T05:25:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。