論文の概要: OCRA: Object-Centric Learning with 3D and Tactile Priors for Human-to-Robot Action Transfer
- arxiv url: http://arxiv.org/abs/2603.14401v1
- Date: Sun, 15 Mar 2026 14:31:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.790404
- Title: OCRA: Object-Centric Learning with 3D and Tactile Priors for Human-to-Robot Action Transfer
- Title(参考訳): OCRA:人間とロボットの行動伝達のための3D・触覚事前学習
- Authors: Kuanning Wang, Ke Fan, Yuqian Fu, Siyu Lin, Hu Luo, Daniel Seita, Yanwei Fu, Yu-Gang Jiang, Xiangyang Xue,
- Abstract要約: OCRAはビデオベースのヒューマン・ロボット・アクション転送のためのフレームワークである。
人間のデモビデオから直接学習し、堅牢な操作を可能にする。
- 参考スコア(独自算出の注目度): 84.22494391514066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present OCRA, an Object-Centric framework for video-based human-to-Robot Action transfer that learns directly from human demonstration videos to enable robust manipulation. Object-centric learning emphasizes task-relevant objects and their interactions while filtering out irrelevant background, providing a natural and scalable way to teach robots. OCRA leverages multi-view RGB videos, the state-of-the-art 3D foundation model VGGT, and advanced detection and segmentation models to reconstruct object-centric 3D point clouds, capturing rich interactions between objects. To handle properties not easily perceived by vision alone, we incorporate tactile priors via a large-scale dataset of over one million tactile images. These 3D and tactile priors are fused through a multimodal module (ResFiLM) and fed into a Diffusion Policy to generate robust manipulation actions. Extensive experiments on both vision-only and visuo-tactile tasks show that OCRA significantly outperforms existing baselines and ablations, demonstrating its effectiveness for learning from human demonstration videos.
- Abstract(参考訳): 我々は,人間のデモビデオから直接学習し,ロバストな操作を可能にする,ビデオベースのヒューマン・ロボット・アクション・トランスファーのためのオブジェクト指向フレームワークであるOCRAを提案する。
オブジェクト中心学習は、タスク関連オブジェクトとその相互作用を強調し、無関係なバックグラウンドをフィルタリングし、ロボットを教える自然なスケーラブルな方法を提供する。
OCRAは、マルチビューRGBビデオ、最先端の3DファンデーションモデルVGGT、高度な検出とセグメンテーションモデルを活用して、オブジェクト中心の3Dポイントクラウドを再構築し、オブジェクト間のリッチなインタラクションをキャプチャする。
視覚だけでは認識できない特性を扱うために、100万以上の触覚画像からなる大規模データセットを通じて、触覚先行情報を組み込む。
これらの3Dおよび触覚前駆体は、マルチモーダルモジュール(ResFiLM)を介して融合され、堅牢な操作アクションを生成するために拡散ポリシーに供給される。
視覚のみのタスクと視覚的触覚タスクの両方に関する大規模な実験は、OCRAが既存のベースラインとアブリケーションを著しく上回り、人間のデモビデオから学習する効果を示すことを示している。
関連論文リスト
- Dexterous Manipulation Policies from RGB Human Videos via 3D Hand-Object Trajectory Reconstruction [24.49384094440561]
我々は,RGBのヒューマンビデオから直接デクスタラスな操作を学習する,デバイスフリーのフレームワークであるVIDEOMANIPを提案する。
シミュレーションでは、学習した把握モデルはインスパイアハンドを用いて20種類のオブジェクトに対して70.25%の成功率を達成する。
実世界では、RGBビデオから訓練された操作ポリシーは、LEAPハンドを使用して7つのタスクで平均62.86%の成功率を達成する。
論文 参考訳(メタデータ) (2026-02-09T18:56:02Z) - DynaRend: Learning 3D Dynamics via Masked Future Rendering for Robotic Manipulation [52.136378691610524]
本稿では、3次元認識と動的インフォームド三面体特徴を学習する表現学習フレームワークDynaRendを紹介する。
マルチビューRGB-Dビデオデータに基づく事前トレーニングにより、DynaRendは空間幾何学、将来のダイナミクス、タスク意味を統合された三面体表現で共同でキャプチャする。
我々は、RLBenchとColosseumという2つの挑戦的なベンチマークでDynaRendを評価し、政策成功率、環境摂動の一般化、様々な操作タスクにおける実世界の適用性などを大幅に改善した。
論文 参考訳(メタデータ) (2025-10-28T10:17:11Z) - O$^3$Afford: One-Shot 3D Object-to-Object Affordance Grounding for Generalizable Robotic Manipulation [8.1159855043566]
我々は,限られたデータ制約下でのオブジェクト・ツー・オブジェクト・アベイランス・グラウンドディングの課題に対処する。
近年の2次元視覚基礎モデルによる数ショット学習の進歩に触発され,ロボット操作のための1Dオブジェクト・オブジェクト・アベイランス・ラーニング・アプローチを提案する。
3Dオブジェクト・ツー・オブジェクト・アベイランス・グラウンドとロボット操作による実験により,O$3$Affordは,精度と一般化能力の両面で,既存のベースラインを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-09-07T22:45:06Z) - Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - TASTE-Rob: Advancing Video Generation of Task-Oriented Hand-Object Interaction for Generalizable Robotic Manipulation [18.083105886634115]
TASTE-Robは、エゴ中心のハンドオブジェクトインタラクションビデオ100,856のデータセットである。
それぞれのビデオは、言語指示と慎重に一致し、一貫したカメラ視点から記録される。
リアリズムを高めるために,我々は3段階のポーズ・リファインメント・パイプラインを導入する。
論文 参考訳(メタデータ) (2025-03-14T14:09:31Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。