論文の概要: MASSTAR: A Multi-Modal and Large-Scale Scene Dataset with a Versatile Toolchain for Surface Prediction and Completion
- arxiv url: http://arxiv.org/abs/2403.11681v1
- Date: Mon, 18 Mar 2024 11:35:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 15:37:57.379783
- Title: MASSTAR: A Multi-Modal and Large-Scale Scene Dataset with a Versatile Toolchain for Surface Prediction and Completion
- Title(参考訳): MASSTAR:表面予測と補完のためのVersatileツールチェーンを備えたマルチモーダルかつ大規模シーンデータセット
- Authors: Guiyong Zheng, Jinqi Jiang, Chen Feng, Shaojie Shen, Boyu Zhou,
- Abstract要約: MASSTARはマルチモーダルなlArgeスケールのシーンデータセットであり、サーフAce predictionと完了のためのVerSatile Toolchainを備えている。
環境から生の3Dデータを処理するための汎用的で効率的なツールチェーンを開発した。
実世界の部分的なデータを含む1000以上のシーンレベルのモデルからなるサンプルデータセットを生成する。
- 参考スコア(独自算出の注目度): 25.44529512862336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surface prediction and completion have been widely studied in various applications. Recently, research in surface completion has evolved from small objects to complex large-scale scenes. As a result, researchers have begun increasing the volume of data and leveraging a greater variety of data modalities including rendered RGB images, descriptive texts, depth images, etc, to enhance algorithm performance. However, existing datasets suffer from a deficiency in the amounts of scene-level models along with the corresponding multi-modal information. Therefore, a method to scale the datasets and generate multi-modal information in them efficiently is essential. To bridge this research gap, we propose MASSTAR: a Multi-modal lArge-scale Scene dataset with a verSatile Toolchain for surfAce pRediction and completion. We develop a versatile and efficient toolchain for processing the raw 3D data from the environments. It screens out a set of fine-grained scene models and generates the corresponding multi-modal data. Utilizing the toolchain, we then generate an example dataset composed of over a thousand scene-level models with partial real-world data added. We compare MASSTAR with the existing datasets, which validates its superiority: the ability to efficiently extract high-quality models from complex scenarios to expand the dataset. Additionally, several representative surface completion algorithms are benchmarked on MASSTAR, which reveals that existing algorithms can hardly deal with scene-level completion. We will release the source code of our toolchain and the dataset. For more details, please see our project page at https://sysu-star.github.io/MASSTAR.
- Abstract(参考訳): 表面の予測と完成は様々な用途で広く研究されている。
近年、表面完成の研究は、小さな物体から複雑な大規模シーンへと発展してきた。
その結果、研究者はデータの量を増やし始め、レンダリングされたRGB画像、記述テキスト、深度画像など、より多様なデータモダリティを活用して、アルゴリズムのパフォーマンスを高めている。
しかし、既存のデータセットは、対応するマルチモーダル情報とともに、シーンレベルのモデルの量不足に悩まされている。
したがって、データセットをスケールし、効率的にマルチモーダル情報を生成する方法が不可欠である。
この研究ギャップを埋めるため,マルチモーダルなlArgeスケールのSceneデータセットであるMASSTARを提案する。
環境から生の3Dデータを処理するための汎用的で効率的なツールチェーンを開発した。
一連のきめ細かいシーンモデルをスクリーニングし、対応するマルチモーダルデータを生成する。
ツールチェーンを利用することで、1,000以上のシーンレベルのモデルと、部分的な実世界のデータを組み合わせたサンプルデータセットを生成します。
我々は、MASSTARと既存のデータセットを比較し、その優位性を検証する: 複雑なシナリオから高品質なモデルを効率的に抽出してデータセットを拡張する能力。
さらに,MASSTAR上で複数の代表的なサーフェス補完アルゴリズムをベンチマークした結果,既存のアルゴリズムではシーンレベルの補完にほとんど対応できないことが明らかとなった。
ツールチェーンとデータセットのソースコードをリリースします。
詳細については、プロジェクトページ(https://sysu-star.github.io/MASSTAR)を参照してください。
関連論文リスト
- MegaScenes: Scene-Level View Synthesis at Scale [69.21293001231993]
NVS (Scene-level novel view synthesis) は多くの視覚やグラフィックスの応用に基礎を置いている。
MegaScenesと呼ばれるインターネット写真コレクションから大規模なシーンレベルのデータセットを作成し、世界中の動き(SfM)から100K以上の構造を復元する。
我々は、最先端NVS手法の故障事例を分析し、生成一貫性を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-17T17:55:55Z) - RU-AI: A Large Multimodal Dataset for Machine Generated Content Detection [11.265512559447986]
本稿では,テキスト,画像,音声中の機械生成コンテンツを検出するための大規模マルチモーダルデータセットであるRU-AIを紹介する。
私たちのデータセットは、Flickr8K、COCO、Places205の3つの大きな公開データセットから構築されています。
マルチモーダル埋め込みモジュールを多層パーセプトロンネットワークに組み込んだ統一モデルにより,データの起源を効果的に決定できる。
論文 参考訳(メタデータ) (2024-06-07T12:58:14Z) - SynTable: A Synthetic Data Generation Pipeline for Unseen Object Amodal
Instance Segmentation of Cluttered Tabletop Scenes [2.8661021832561757]
我々はNVIDIAのIsaac Sim Replicator Composerを使って構築されたPythonベースのデータセットジェネレータであるSynTableを紹介する。
私たちのデータセット生成ツールは、オブジェクトメッシュ、材料、テクスチャ、照明、背景を含む複雑な3Dシーンをレンダリングすることができます。
レイトレーシングによりSynTableを用いて生成されたサンプルデータセットを用いて、最先端モデルであるUOAIS-Netのトレーニングを行う。
論文 参考訳(メタデータ) (2023-07-14T13:24:42Z) - MIMIC: Masked Image Modeling with Image Correspondences [29.8154890262928]
効果的な事前トレーニングデータセットを構築するための現在の方法は、アノテーション付き3Dメッシュ、ポイントクラウド、シミュレートされた環境からのカメラパラメータに依存している。
我々は、追加のアノテーションを必要としない事前トレーニングされたデータセットキュレーションアプローチを提案する。
提案手法により,実世界のビデオとシミュレーション環境の両方から,大規模にマルチビューデータセットを生成することができる。
論文 参考訳(メタデータ) (2023-06-27T00:40:12Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision
Datasets from 3D Scans [103.92680099373567]
本稿では,実世界の包括的3Dスキャンからマルチタスク視覚データセットをパラメトリックサンプリングし,レンダリングするパイプラインを提案する。
サンプリングパラメータを変更することで、生成されたデータセットを“ステア”して、特定の情報を強調することが可能になる。
生成されたスタータデータセットでトレーニングされた共通アーキテクチャは、複数の共通ビジョンタスクとベンチマークで最先端のパフォーマンスに達した。
論文 参考訳(メタデータ) (2021-10-11T04:21:46Z) - DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort [117.41383937100751]
現在のディープネットワークは、大規模なデータセットのトレーニングの恩恵を受ける、非常にデータハングリーです。
GAN潜入コードがどのようにデコードされ、イメージのセマンティックセグメンテーションを生成するかを示す。
これらの生成されたデータセットは、実際のデータセットと同じように、コンピュータビジョンアーキテクチャのトレーニングに使用できます。
論文 参考訳(メタデータ) (2021-04-13T20:08:29Z) - Measures of Complexity for Large Scale Image Datasets [0.3655021726150368]
本研究では,データセットの複雑さを計測する比較的単純な手法のシリーズを構築する。
我々は,自動運転研究コミュニティであるCityscapes,IDD,BDD,Vistaの4つのデータセットを用いて分析を行った。
エントロピーに基づくメトリクスを用いて、これらのデータセットのランク順の複雑さを示し、ディープラーニングに関して確立されたランク順と比較する。
論文 参考訳(メタデータ) (2020-08-10T21:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。