論文の概要: EC-Flow: Enabling Versatile Robotic Manipulation from Action-Unlabeled Videos via Embodiment-Centric Flow
- arxiv url: http://arxiv.org/abs/2507.06224v1
- Date: Tue, 08 Jul 2025 17:57:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.438525
- Title: EC-Flow: Enabling Versatile Robotic Manipulation from Action-Unlabeled Videos via Embodiment-Centric Flow
- Title(参考訳): EC-Flow: 身体・心の流れを通したアクション・アンラベル映像からの触覚ロボットマニピュレーションの実現
- Authors: Yixiang Chen, Peiyan Li, Yan Huang, Jiabing Yang, Kehan Chen, Liang Wang,
- Abstract要約: Embodiment-Centric Flow (EC-Flow)は、アクション未ラベルのビデオから操作を学ぶフレームワークである。
我々の重要な洞察は、エンボディメント固有のキネマティクスを取り入れることで、汎用的な操作シナリオへの一般化が著しく向上するということである。
EC-Flowを実行可能なロボットアクションに翻訳するには、キネマティックな制約を指定するのに標準的なロボットURDFファイルが必要である。
- 参考スコア(独自算出の注目度): 10.674192015199996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current language-guided robotic manipulation systems often require low-level action-labeled datasets for imitation learning. While object-centric flow prediction methods mitigate this issue, they remain limited to scenarios involving rigid objects with clear displacement and minimal occlusion. In this work, we present Embodiment-Centric Flow (EC-Flow), a framework that directly learns manipulation from action-unlabeled videos by predicting embodiment-centric flow. Our key insight is that incorporating the embodiment's inherent kinematics significantly enhances generalization to versatile manipulation scenarios, including deformable object handling, occlusions, and non-object-displacement tasks. To connect the EC-Flow with language instructions and object interactions, we further introduce a goal-alignment module by jointly optimizing movement consistency and goal-image prediction. Moreover, translating EC-Flow to executable robot actions only requires a standard robot URDF (Unified Robot Description Format) file to specify kinematic constraints across joints, which makes it easy to use in practice. We validate EC-Flow on both simulation (Meta-World) and real-world tasks, demonstrating its state-of-the-art performance in occluded object handling (62% improvement), deformable object manipulation (45% improvement), and non-object-displacement tasks (80% improvement) than prior state-of-the-art object-centric flow methods. For more information, see our project website at https://ec-flow1.github.io .
- Abstract(参考訳): 現在の言語誘導型ロボット操作システムは、しばしば模倣学習のために低レベルのアクションラベル付きデータセットを必要とする。
物体中心の流れ予測法はこの問題を緩和するが、それらは明確な変位と最小閉塞の剛体物体を含むシナリオに限られる。
本研究では,エボディメント中心の流れを予測することで,アクション未ラベルビデオから直接操作を学習するフレームワークであるEmbodiment-Centric Flow(EC-Flow)を提案する。
我々の重要な洞察は、エンボディメント固有のキネマティクスを取り入れることで、変形可能なオブジェクトハンドリング、オクルージョン、非オブジェクト置換タスクなど、汎用的な操作シナリオへの一般化が著しく向上するということである。
さらに,EC-Flowを言語命令やオブジェクトのインタラクションに結びつけるために,動きの一貫性とゴールイメージの予測を協調的に最適化することで,ゴールアライメントモジュールを導入する。
さらに、EC-Flowを実行可能なロボットアクションに翻訳するには、関節間の運動的制約を特定するための標準的なロボットURDF(Unified Robot Description Format)ファイルのみが必要である。
我々は,EC-Flowをシミュレーション(Meta-World)と実世界のタスクの両方で検証し,オブジェクトハンドリングの最先端性能(62%改善),変形可能なオブジェクト操作(45%改善),非オブジェクト置換タスク(80%改善)の実証を行った。
詳細については、プロジェクトのWebサイト(https://ec-flow1.github.io)を参照してください。
関連論文リスト
- GMFlow: Global Motion-Guided Recurrent Flow for 6D Object Pose Estimation [10.48817934871207]
ポーズ推定のためのGMFlowと呼ばれるグローバルな動き誘導型リカレントフロー推定法を提案する。
我々は、物体の構造情報を利用して、剛体の可視部分の運動を、その可視領域に拡張する。
提案手法は,競合計算効率を維持しつつ,既存の手法の精度を向上する。
論文 参考訳(メタデータ) (2024-11-26T07:28:48Z) - Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [57.942404069484134]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。
従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。
本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z) - ActionFlow: Equivariant, Accurate, and Efficient Policies with Spatially Symmetric Flow Matching [20.20511152176522]
ActionFlowは、空間対称性誘導バイアスを統合するポリシークラスである。
表現レベルでは、ActionFlowはSE(3)不変トランスフォーマーアーキテクチャを導入している。
ActionFlowは、最先端の深層生成モデルであるFlow Matchingを活用する。
論文 参考訳(メタデータ) (2024-09-06T19:30:36Z) - Flow as the Cross-Domain Manipulation Interface [73.15952395641136]
Im2Flow2Actは、現実世界のロボットのトレーニングデータを必要とせずに、ロボットが現実世界の操作スキルを習得することを可能にする。
Im2Flow2Actはフロー生成ネットワークとフロー条件ポリシーの2つのコンポーネントから構成される。
我々はIm2Flow2Actの様々な実世界のタスクにおいて、剛性、調音、変形可能なオブジェクトの操作を含む能力を実証する。
論文 参考訳(メタデータ) (2024-07-21T16:15:02Z) - SeFlow: A Self-Supervised Scene Flow Method in Autonomous Driving [18.88208422580103]
連続したLiDARスキャンで各点における3次元運動を予測する。
現在の最先端の手法は、シーンフローネットワークをトレーニングするために注釈付きデータを必要とする。
本研究では,効率的な動的分類を学習に基づくシーンフローパイプラインに統合するSeFlowを提案する。
論文 参考訳(メタデータ) (2024-07-01T18:22:54Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - IFOR: Iterative Flow Minimization for Robotic Object Rearrangement [92.97142696891727]
IFOR(Iterative Flow Minimization for Robotic Object Rearrangement)は、未知物体の物体再構成問題に対するエンドツーエンドの手法である。
本手法は,合成データのみを訓練しながら,散在するシーンや実世界に適用可能であることを示す。
論文 参考訳(メタデータ) (2022-02-01T20:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。