論文の概要: FastUMI-100K: Advancing Data-driven Robotic Manipulation with a Large-scale UMI-style Dataset
- arxiv url: http://arxiv.org/abs/2510.08022v1
- Date: Thu, 09 Oct 2025 09:57:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.998986
- Title: FastUMI-100K: Advancing Data-driven Robotic Manipulation with a Large-scale UMI-style Dataset
- Title(参考訳): FastUMI-100K:大規模UMI型データセットによるデータ駆動型ロボットマニピュレーションの改善
- Authors: Kehui Liu, Zhongjie Jia, Yang Li, Zhaxizhuoma, Pengan Chen, Song Liu, Xin Liu, Pingrui Zhang, Haoming Song, Xinyi Ye, Nieqing Cao, Zhigang Wang, Jia Zeng, Dong Wang, Yan Ding, Bin Zhao, Xuelong Li,
- Abstract要約: 我々は,大規模なUMIスタイルのマルチモーダルデモデータセットであるFastUMI-100Kを提案する。
FastUMI-100Kは、現実世界のロボットデモデータの多様な要求を満たすために、よりスケーラブルで柔軟性があり、適応可能なソリューションを提供する。
我々のデータセットは、エンドエフェクタ状態、多視点手首装着魚眼画像、テキストアノテーションを含むマルチモーダルストリームを統合している。
- 参考スコア(独自算出の注目度): 55.66606167502093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data-driven robotic manipulation learning depends on large-scale, high-quality expert demonstration datasets. However, existing datasets, which primarily rely on human teleoperated robot collection, are limited in terms of scalability, trajectory smoothness, and applicability across different robotic embodiments in real-world environments. In this paper, we present FastUMI-100K, a large-scale UMI-style multimodal demonstration dataset, designed to overcome these limitations and meet the growing complexity of real-world manipulation tasks. Collected by FastUMI, a novel robotic system featuring a modular, hardware-decoupled mechanical design and an integrated lightweight tracking system, FastUMI-100K offers a more scalable, flexible, and adaptable solution to fulfill the diverse requirements of real-world robot demonstration data. Specifically, FastUMI-100K contains over 100K+ demonstration trajectories collected across representative household environments, covering 54 tasks and hundreds of object types. Our dataset integrates multimodal streams, including end-effector states, multi-view wrist-mounted fisheye images and textual annotations. Each trajectory has a length ranging from 120 to 500 frames. Experimental results demonstrate that FastUMI-100K enables high policy success rates across various baseline algorithms, confirming its robustness, adaptability, and real-world applicability for solving complex, dynamic manipulation challenges. The source code and dataset will be released in this link https://github.com/MrKeee/FastUMI-100K.
- Abstract(参考訳): データ駆動型ロボット操作学習は、大規模で高品質な専門家によるデモンストレーションデータセットに依存する。
しかし、人間の遠隔操作ロボットの収集に主に依存する既存のデータセットは、スケーラビリティ、軌道の滑らかさ、現実の環境でのさまざまなロボットの実施性といった点で制限されている。
本稿では,これらの制約を克服し,現実の操作タスクの複雑化に対応するために,大規模なUMIスタイルのマルチモーダル・デモデータセットであるFastUMI-100Kを提案する。
FastUMI-100Kは、モジュラーでハードウェアを分離した機械設計と軽量なトラッキングシステムを組み合わせた、新しいロボットシステムであるFastUMIによって開発された。
具体的には、FastUMI-100Kには、代表的な家庭環境全体で収集された100K以上の実証軌道が含まれており、54のタスクと数百のオブジェクトタイプをカバーしている。
我々のデータセットは、エンドエフェクタ状態、多視点手首装着魚眼画像、テキストアノテーションを含むマルチモーダルストリームを統合している。
各軌跡の長さは120フレームから500フレームである。
実験結果から、FastUMI-100Kは、様々なベースラインアルゴリズムをまたいで高いポリシー成功率を実現し、その堅牢性、適応性、そして複雑な動的操作課題を解決するための実世界の適用性を確認した。
ソースコードとデータセットはこのリンク https://github.com/MrKeee/FastUMI-100K でリリースされる。
関連論文リスト
- Scalable Video-to-Dataset Generation for Cross-Platform Mobile Agents [57.59830804627066]
実世界のモバイルOSナビゲーションをキャプチャする20Kの指導ビデオから,313Kの注釈付きフレームの大規模データセットであるMONDAYを紹介した。
MONDAYを事前学習フェーズに含むモデルは、堅牢なクロスプラットフォームの一般化機能を示す。
公開されているビデオコンテンツを利用して、包括的なタスクデータセットを作成する自動化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T02:39:03Z) - GenM$^3$: Generative Pretrained Multi-path Motion Model for Text Conditional Human Motion Generation [19.2804620329011]
Generative Pretrained Multi-path Motion Model (GenM(3))は、統合された動き表現を学習するための包括的なフレームワークである。
大規模なトレーニングを可能にするため、11の高品質なモーションデータセットを統合し、統合する。
GenM(3)はHumanML3Dベンチマークで0.035の最先端のFIDを達成し、最先端のメソッドを大きなマージンで上回る。
論文 参考訳(メタデータ) (2025-03-19T05:56:52Z) - Kaiwu: A Multimodal Manipulation Dataset and Framework for Robot Learning and Human-Robot Interaction [5.989044517795631]
本稿では,実世界の同期型マルチモーダルデータ問題に対処するために,カイウーマルチモーダルデータセットを提案する。
このデータセットはまず、人間、環境、ロボットのデータ収集フレームワークを20の被験者と30のインタラクションオブジェクトと統合する。
絶対タイムスタンプに基づく細粒度マルチレベルアノテーションとセマンティックセグメンテーションラベリングを行う。
論文 参考訳(メタデータ) (2025-03-07T08:28:24Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。