Fugu-MT 論文翻訳(概要): Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction

論文の概要: Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction

arxiv url: http://arxiv.org/abs/2409.18121v1
Date: Thu, 26 Sep 2024 17:57:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-27 21:27:33.255197
Title: Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction
Title（参考訳）: モノクロ4D再構成による人工物体の操作を模倣するロボット「Do」
Authors: Justin Kerr, Chung Min Kim, Mingxuan Wu, Brent Yi, Qianqian Wang, Ken Goldberg, Angjoo Kanazawa,
Abstract要約: 本研究は,1つの単分子RGB人間の実演から音声による物体操作を模倣する手法を開発した。まず,モノクロ映像から3次元部分運動を復元する4次元微分可能部品モデル(4D-DPM)を提案する。この4D再構成を前提として、ロボットは物体の軌道を再現し、両腕の動きを計画し、実証された物体部分の動きを誘導する。両用するYuMiロボットを用いて,4D-DPMの3D追跡精度を実写3D部分軌跡に基づいて評価し,9つのオブジェクトに対してRSRDの物理的実行性能を評価した。
参考スコア（独自算出の注目度）: 51.49400490437258
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Humans can learn to manipulate new objects by simply watching others; providing robots with the ability to learn from such demonstrations would enable a natural interface specifying new behaviors. This work develops Robot See Robot Do (RSRD), a method for imitating articulated object manipulation from a single monocular RGB human demonstration given a single static multi-view object scan. We first propose 4D Differentiable Part Models (4D-DPM), a method for recovering 3D part motion from a monocular video with differentiable rendering. This analysis-by-synthesis approach uses part-centric feature fields in an iterative optimization which enables the use of geometric regularizers to recover 3D motions from only a single video. Given this 4D reconstruction, the robot replicates object trajectories by planning bimanual arm motions that induce the demonstrated object part motion. By representing demonstrations as part-centric trajectories, RSRD focuses on replicating the demonstration's intended behavior while considering the robot's own morphological limits, rather than attempting to reproduce the hand's motion. We evaluate 4D-DPM's 3D tracking accuracy on ground truth annotated 3D part trajectories and RSRD's physical execution performance on 9 objects across 10 trials each on a bimanual YuMi robot. Each phase of RSRD achieves an average of 87% success rate, for a total end-to-end success rate of 60% across 90 trials. Notably, this is accomplished using only feature fields distilled from large pretrained vision models -- without any task-specific training, fine-tuning, dataset collection, or annotation. Project page: https://robot-see-robot-do.github.io
Abstract（参考訳）: 人間は、他の人を見ることで新しい物体を操ることを学ぶことができ、ロボットにそのようなデモから学ぶ能力を与えることで、新しい行動を特定する自然なインターフェイスを可能にする。この研究は,1つの静的多視点オブジェクトスキャンを与えられた1つの単分子RGB人間の実演から,音声による物体操作を模倣するロボットシーロボットDo(RSRD)を開発した。まず,4次元微分可能部品モデル (4D-DPM) を提案する。この分析・バイ・シンセプション手法は、幾何正規化器を用いて1つのビデオから3次元運動を復元する反復最適化において、部分中心の特徴場を用いる。この4D再構成を前提として、ロボットは物体の軌道を再現し、両腕の動きを計画し、実証された物体部分の動きを誘導する。デモを部分中心の軌道として表現することで、RSRDは、手の動きを再現しようとするのではなく、ロボット自身の形態的限界を考慮して、デモの意図した動作を複製することに焦点を当てる。両用するYuMiロボットを用いて,4D-DPMの3D追跡精度を実写3D部分軌跡に基づいて評価し,9つのオブジェクトに対してRSRDの物理的実行性能を評価した。 RSRDの各フェーズは平均87%の成功率を達成し、90回の試験でエンド・ツー・エンドの成功率は60%である。特に、これは、大規模な事前訓練されたビジョンモデルから抽出された機能フィールドのみを使用して実現されている。プロジェクトページ:https://robot-see-robot-do.github.io

関連論文リスト

Dexterous Manipulation Policies from RGB Human Videos via 3D Hand-Object Trajectory Reconstruction [24.49384094440561]
我々は,RGBのヒューマンビデオから直接デクスタラスな操作を学習する,デバイスフリーのフレームワークであるVIDEOMANIPを提案する。シミュレーションでは、学習した把握モデルはインスパイアハンドを用いて20種類のオブジェクトに対して70.25%の成功率を達成する。実世界では、RGBビデオから訓練された操作ポリシーは、LEAPハンドを使用して7つのタスクで平均62.86%の成功率を達成する。
論文参考訳（メタデータ） (2026-02-09T18:56:02Z)
ManipDreamer3D : Synthesizing Plausible Robotic Manipulation Video with Occupancy-aware 3D Trajectory [56.06314177428745]
ManipDreamer3Dは入力画像とテキスト命令から可塑性3D対応ロボット操作ビデオを生成する。提案手法は,自律的に計画された3Dトラジェクトリを用いたロボットビデオを生成し,人間の介入要求を大幅に低減する。
論文参考訳（メタデータ） (2025-08-29T10:39:06Z)
3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model [40.730112146035076]
主な理由は、ロボットの操作スキルを教えるための、大きく均一なデータセットがないことだ。現在のロボットデータセットは、単純なシーン内で異なるアクション空間でロボットのアクションを記録することが多い。我々は人間とロボットの操作データから3次元フローワールドモデルを学ぶ。
論文参考訳（メタデータ） (2025-06-06T16:00:31Z)
Object-centric 3D Motion Field for Robot Learning from Human Videos [56.9436352861611]
本稿では,人間ビデオからのロボット学習の動作を表現するために,物体中心の3次元運動場を提案する。ゼロショット制御のためのビデオからこの表現を抽出するための新しいフレームワークを提案する。実験の結果,提案手法は最新の手法に比べて3次元動作推定誤差を50%以上削減できることがわかった。
論文参考訳（メタデータ） (2025-06-04T17:59:06Z)
VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
Pre-training Auto-regressive Robotic Models with 4D Representations [43.80798244473759]
ARM4Rは、人間のビデオデータから学んだ低レベルの4D表現を利用して、より優れた事前訓練されたロボットモデルを生成する自動回帰ロボットモデルである。実験の結果、ARM4Rは人間のビデオデータからロボットへ効率よく転送でき、さまざまなロボット環境や構成におけるタスクのパフォーマンスを継続的に改善できることがわかった。
論文参考訳（メタデータ） (2025-02-18T18:59:01Z)
Motion Tracks: A Unified Representation for Human-Robot Transfer in Few-Shot Imitation Learning [40.43176821917154]
本稿では,画像上の2次元短距離軌跡として行動を表現することを提案する。これらの動作、つまりモーショントラックは、人間の手やロボットのエンドエフェクターの動作の予測方向を捉えます。画像観察を受信し,動作トラックを動作として出力する,MT-pi(Motion Track Policy)と呼ばれるILポリシをインスタンス化する。
論文参考訳（メタデータ） (2025-01-13T01:01:44Z)
Dynamic 3D Gaussian Tracking for Graph-Based Neural Dynamics Modeling [10.247075501610492]
マルチビューRGBビデオからオブジェクトダイナミクスを直接学習するフレームワークを導入する。グラフニューラルネットワークを用いて粒子ベース力学モデルを訓練する。本手法は,初期設定の異なる物体の動きやロボットの動作を予測できる。
論文参考訳（メタデータ） (2024-10-24T17:02:52Z)
Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文参考訳（メタデータ） (2024-05-02T17:56:55Z)
SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。 SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。 SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文参考訳（メタデータ） (2024-04-01T21:23:03Z)
DITTO: Demonstration Imitation by Trajectory Transformation [31.930923345163087]
そこで本研究では,RGB-Dビデオ録画による実演映像のワンショット模倣の問題に対処する。本稿では,2段階のプロセスを提案する。第1段階では実演軌道をオフラインに抽出し,操作対象のセグメンテーションと,容器などの二次物体に対する相対運動を決定する。オンライン軌道生成段階では、まず全ての物体を再検出し、次にデモ軌道を現在のシーンにワープし、ロボット上で実行します。
論文参考訳（メタデータ） (2024-03-22T13:46:51Z)
Naturalistic Robot Arm Trajectory Generation via Representation Learning [4.7682079066346565]
家庭環境におけるマニピュレータロボットの統合は、より予測可能な人間のようなロボットの動きの必要性を示唆している。自然主義的な運動軌跡を生成する方法の1つは、人間のデモ隊の模倣によるものである。本稿では,自己回帰型ニューラルネットワークを用いた自己指導型模倣学習法について検討する。
論文参考訳（メタデータ） (2023-09-14T09:26:03Z)
Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。我々の枠組みは、人間の手の動きを予測することに基づいている。トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文参考訳（メタデータ） (2023-02-03T21:39:52Z)
Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文参考訳（メタデータ） (2022-11-16T16:26:48Z)
Learning Object Manipulation Skills from Video via Approximate Differentiable Physics [27.923004421974156]
我々はロボットに、単一のビデオデモを見て、シンプルなオブジェクト操作タスクを実行するように教える。識別可能なシーンは、3Dシーンと2Dビデオの間の知覚的忠実性を保証する。我々は,54のデモ映像からなる3次元再構成作業に対するアプローチを評価した。
論文参考訳（メタデータ） (2022-08-03T10:21:47Z)
Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文参考訳（メタデータ） (2022-06-16T10:45:17Z)
Learning 3D Dynamic Scene Representations for Robot Manipulation [21.6131570689398]
ロボット操作のための3Dシーン表現は、永続性、完全性、連続性という3つの重要なオブジェクト特性を捉えなければならない。本研究では3次元動的表現(DSR)を導入し,オブジェクトを同時に検出,追跡,再構成し,そのダイナミクスを予測する。本稿では,DSRを段階的に構築・洗練するために,複数の相互作用を通して視覚的観察を集約することを学ぶDSR-Netを提案する。
論文参考訳（メタデータ） (2020-11-03T19:23:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。