論文の概要: Flat'n'Fold: A Diverse Multi-Modal Dataset for Garment Perception and Manipulation
- arxiv url: http://arxiv.org/abs/2409.18297v1
- Date: Thu, 26 Sep 2024 21:10:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 07:10:35.826424
- Title: Flat'n'Fold: A Diverse Multi-Modal Dataset for Garment Perception and Manipulation
- Title(参考訳): Flat'n'Fold: ガーメント知覚とマニピュレーションのための多様なマルチモーダルデータセット
- Authors: Lipeng Zhuang, Shiyu Fan, Yingdong Ru, Florent Audonnet, Paul Henderson, Gerardo Aragon-Camarasa,
- Abstract要約: 衣服操作のための新しい大規模データセットであるFlat'n'Foldを紹介する。
1,212人の人間と887人のロボットが、8つのカテゴリーにまたがる44のユニークな衣服を平らにし、折りたたみするデモを行った。
私たちのデータセットは、折り畳まれた状態から折り畳まれた状態まで、操作プロセス全体を一意にキャプチャします。
- 参考スコア(独自算出の注目度): 5.096333816641487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Flat'n'Fold, a novel large-scale dataset for garment manipulation that addresses critical gaps in existing datasets. Comprising 1,212 human and 887 robot demonstrations of flattening and folding 44 unique garments across 8 categories, Flat'n'Fold surpasses prior datasets in size, scope, and diversity. Our dataset uniquely captures the entire manipulation process from crumpled to folded states, providing synchronized multi-view RGB-D images, point clouds, and action data, including hand or gripper positions and rotations. We quantify the dataset's diversity and complexity compared to existing benchmarks and show that our dataset features natural and diverse manipulations of real-world demonstrations of human and robot demonstrations in terms of visual and action information. To showcase Flat'n'Fold's utility, we establish new benchmarks for grasping point prediction and subtask decomposition. Our evaluation of state-of-the-art models on these tasks reveals significant room for improvement. This underscores Flat'n'Fold's potential to drive advances in robotic perception and manipulation of deformable objects. Our dataset can be downloaded at https://cvas-ug.github.io/flat-n-fold
- Abstract(参考訳): Flat'n'Foldは、既存のデータセットにおける重要なギャップに対処する衣服操作のための、新しい大規模データセットである。
Flat'n'Foldは8つのカテゴリにまたがって44のユニークな衣服をフラットに折り畳んだ1,212人の人間と887人のロボットによるデモを補完する。
我々のデータセットは、折り畳まれた状態から折り畳まれた状態までの操作プロセス全体を一意にキャプチャし、同期されたマルチビューRGB-D画像、点雲、手やグリップの位置や回転を含むアクションデータを提供します。
既存のベンチマークと比較すると、データセットの多様性と複雑さを定量化し、私たちのデータセットは、視覚的およびアクション情報の観点から、人間とロボットの実世界デモの自然な、多様な操作を特徴としています。
Flat'n'Fold の実用性を示すために,我々は点予測とサブタスク分解を把握するための新しいベンチマークを構築した。
これらのタスクにおける最先端モデルの評価は、改善の余地が顕著であることを示している。
このことは、Flat'n'Foldがロボットの知覚と変形可能な物体の操作の進歩を推し進める可能性を浮き彫りにした。
私たちのデータセットはhttps://cvas-ug.github.io/flat-n-foldでダウンロードできます。
関連論文リスト
- Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - MASSTAR: A Multi-Modal and Large-Scale Scene Dataset with a Versatile Toolchain for Surface Prediction and Completion [25.44529512862336]
MASSTARはマルチモーダルなlArgeスケールのシーンデータセットであり、サーフAce predictionと完了のためのVerSatile Toolchainを備えている。
環境から生の3Dデータを処理するための汎用的で効率的なツールチェーンを開発した。
実世界の部分的なデータを含む1000以上のシーンレベルのモデルからなるサンプルデータセットを生成する。
論文 参考訳(メタデータ) (2024-03-18T11:35:18Z) - HANDAL: A Dataset of Real-World Manipulable Object Categories with Pose
Annotations, Affordances, and Reconstructions [17.9178233068395]
本稿では,カテゴリレベルのオブジェクトポーズ推定とアベイランス予測のためのHANDALデータセットを提案する。
このデータセットは、17のカテゴリで212の現実世界のオブジェクトの2.2kビデオから308kの注釈付き画像フレームで構成されている。
6-DoFカテゴリレベルのポーズ+スケール推定と関連するタスクに対するデータセットの有用性について概説する。
論文 参考訳(メタデータ) (2023-08-02T23:59:59Z) - FaceFusion: Exploiting Full Spectrum of Multiple Datasets [4.438240667468304]
我々はFaceFusionという新しいトレーニング手法を提案する。
ビューを使用して埋め込みネットワークを同時にトレーニングしながら、アイデンティティの衝突によって達成されない、さまざまなデータセットの融合ビューを生成する。
統合データセットの統一ビューを使用することで、組み込みネットワークはデータセットのスペクトル全体に対してトレーニングされ、顕著なパフォーマンス向上につながる。
論文 参考訳(メタデータ) (2023-05-24T00:51:04Z) - MMRDN: Consistent Representation for Multi-View Manipulation
Relationship Detection in Object-Stacked Scenes [62.20046129613934]
我々は,MMRDN(Multi-view MRD Network)と呼ばれる新しい多視点融合フレームワークを提案する。
異なるビューからの2Dデータを共通の隠れ空間に投影し、埋め込みをVon-Mises-Fisher分布に適合させる。
これら2つのオブジェクトの相対位置を符号化した各オブジェクト対の点雲から、K$最大垂直近傍点(KMVN)の集合を選択する。
論文 参考訳(メタデータ) (2023-04-25T05:55:29Z) - Effective Utilisation of Multiple Open-Source Datasets to Improve
Generalisation Performance of Point Cloud Segmentation Models [0.0]
航空点雲データのセマンティックセグメンテーションは、地面、建物、植生などのクラスに属するポイントを区別するために利用することができる。
ドローンや飛行機に搭載された空中センサーから発生する点雲は、LIDARセンサーやカメラと光度計を利用することができる。
そこで本研究では,データセットの単純な組み合わせが,期待通りに一般化性能を向上したモデルを生成することを示す。
論文 参考訳(メタデータ) (2022-11-29T02:31:01Z) - DexTransfer: Real World Multi-fingered Dexterous Grasping with Minimal
Human Demonstrations [51.87067543670535]
本研究では,少数の人間によるデモンストレーションを行い,見えない物体のポーズを学習するロボット学習システムを提案する。
我々は,物体の点群を入力として捉え,物体を異なる初期ロボット状態から把握するための連続的な動作を予測する,厳密な把握ポリシーを訓練する。
我々のデータセットから学んだポリシーは、シミュレーションと現実世界の両方で見えないオブジェクトのポーズをうまく一般化することができる。
論文 参考訳(メタデータ) (2022-09-28T17:51:49Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Towards Rich, Portable, and Large-Scale Pedestrian Data Collection [6.250018240133604]
本研究では,多様な環境における大規模データ収集を容易にする,ポータブルなデータ収集システムを提案する。
TBDの歩行者データセットである、進行中のデータ収集作業から、最初のデータセットのバッチを紹介します。
既存の歩行者データと比較すると、我々のデータセットには3つの要素がある: 計量空間に基礎を置く人間認証ラベル、トップダウンとビュービューの組み合わせ、社会的に適切な「ロボット」の存在下での自然主義的人間の行動。
論文 参考訳(メタデータ) (2022-03-03T19:28:10Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。