論文の概要: Kaiwu: A Multimodal Manipulation Dataset and Framework for Robot Learning and Human-Robot Interaction
- arxiv url: http://arxiv.org/abs/2503.05231v1
- Date: Fri, 07 Mar 2025 08:28:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:21:17.956572
- Title: Kaiwu: A Multimodal Manipulation Dataset and Framework for Robot Learning and Human-Robot Interaction
- Title(参考訳): Kaiwu: ロボット学習と人間-ロボットインタラクションのためのマルチモーダルマニピュレーションデータセットとフレームワーク
- Authors: Shuo Jiang, Haonan Li, Ruochen Ren, Yanmin Zhou, Zhipeng Wang, Bin He,
- Abstract要約: 本稿では,実世界の同期型マルチモーダルデータ問題に対処するために,カイウーマルチモーダルデータセットを提案する。
このデータセットはまず、人間、環境、ロボットのデータ収集フレームワークを20の被験者と30のインタラクションオブジェクトと統合する。
絶対タイムスタンプに基づく細粒度マルチレベルアノテーションとセマンティックセグメンテーションラベリングを行う。
- 参考スコア(独自算出の注目度): 5.989044517795631
- License:
- Abstract: Cutting-edge robot learning techniques including foundation models and imitation learning from humans all pose huge demands on large-scale and high-quality datasets which constitute one of the bottleneck in the general intelligent robot fields. This paper presents the Kaiwu multimodal dataset to address the missing real-world synchronized multimodal data problems in the sophisticated assembling scenario,especially with dynamics information and its fine-grained labelling. The dataset first provides an integration of human,environment and robot data collection framework with 20 subjects and 30 interaction objects resulting in totally 11,664 instances of integrated actions. For each of the demonstration,hand motions,operation pressures,sounds of the assembling process,multi-view videos, high-precision motion capture information,eye gaze with first-person videos,electromyography signals are all recorded. Fine-grained multi-level annotation based on absolute timestamp,and semantic segmentation labelling are performed. Kaiwu dataset aims to facilitate robot learning,dexterous manipulation,human intention investigation and human-robot collaboration research.
- Abstract(参考訳): 基礎モデルや人間からの模倣学習を含む最先端のロボット学習技術は、すべて、汎用知能ロボット分野においてボトルネックとなっている大規模で高品質なデータセットに対して、大きな需要を生んでいる。
本稿では,高機能な組立シナリオにおける実世界の同期型マルチモーダルデータ問題,特に動的情報とそのきめ細かいラベリングに対処するためのカイウーマルチモーダルデータセットを提案する。
このデータセットはまず、人間、環境、ロボットのデータ収集フレームワークを20の被験者と30のインタラクションオブジェクトと統合し、統合されたアクションの11,664のインスタンスを生成する。
デモ、ハンドモーション、オペレーションプレッシャ、組み立て過程の音、マルチビュービデオ、高精度モーションキャプチャ情報、一対一のビデオによる視線、筋電図信号が記録される。
絶対タイムスタンプに基づく細粒度マルチレベルアノテーションとセマンティックセグメンテーションラベリングを行う。
Kaiwuのデータセットは、ロボットの学習、巧妙な操作、人間の意図の調査、そして人間とロボットのコラボレーション研究を促進することを目的としている。
関連論文リスト
- RoboMIND: Benchmark on Multi-embodiment Intelligence Normative Data for Robot Manipulation [47.41571121843972]
96のオブジェクトクラスを含む479のタスクにわたる107kのデモトラジェクトリを含むデータセットであるRoboMINDを紹介した。
RoboMINDは人間の遠隔操作を通じて収集され、総合的なロボット関連情報を含んでいる。
私たちのデータセットには5万個の実世界の障害デモが含まれており、それぞれに詳細な原因が伴い、障害のリフレクションと修正を可能にしています。
論文 参考訳(メタデータ) (2024-12-18T14:17:16Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - MimicGen: A Data Generation System for Scalable Robot Learning using
Human Demonstrations [55.549956643032836]
MimicGenは、少数の人間のデモから大規模でリッチなデータセットを自動的に合成するシステムである。
ロボットエージェントは,この生成したデータセットを模倣学習により効果的に訓練し,長期的・高精度なタスクにおいて高い性能を達成することができることを示す。
論文 参考訳(メタデータ) (2023-10-26T17:17:31Z) - RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in
One-Shot [56.130215236125224]
オープンドメインでのロボット操作における重要な課題は、ロボットの多様性と一般化可能なスキルの獲得方法である。
単発模倣学習の最近の研究は、訓練されたポリシーを実証に基づく新しいタスクに移行する可能性を示唆している。
本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
論文 参考訳(メタデータ) (2023-07-02T15:33:31Z) - HabitatDyn Dataset: Dynamic Object Detection to Kinematics Estimation [16.36110033895749]
本稿では,合成RGBビデオ,セマンティックラベル,深度情報,および運動情報を含むデータセットHabitatDynを提案する。
HabitatDynは移動カメラを搭載した移動ロボットの視点で作られ、6種類の移動物体をさまざまな速度で撮影する30のシーンを含んでいる。
論文 参考訳(メタデータ) (2023-04-21T09:57:35Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - Addressing Data Scarcity in Multimodal User State Recognition by
Combining Semi-Supervised and Supervised Learning [1.1688030627514532]
本稿では,人間とロボットの相互作用環境における解離・解離状態を検出するためのマルチモーダル機械学習手法を提案する。
我々は,少ないラベル付きデータと大きなラベル付きデータセットを用いて,デア/アグリメント検出のための平均F1スコア81.1%を達成する。
論文 参考訳(メタデータ) (2022-02-08T10:41:41Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。