論文の概要: MVImgNet: A Large-scale Dataset of Multi-view Images
- arxiv url: http://arxiv.org/abs/2303.06042v1
- Date: Fri, 10 Mar 2023 16:31:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 14:26:55.022292
- Title: MVImgNet: A Large-scale Dataset of Multi-view Images
- Title(参考訳): MVImgNet:マルチビュー画像の大規模データセット
- Authors: Xianggang Yu, Mutian Xu, Yidan Zhang, Haolin Liu, Chongjie Ye,
Yushuang Wu, Zizheng Yan, Chenming Zhu, Zhangyang Xiong, Tianyou Liang,
Guanying Chen, Shuguang Cui, Xiaoguang Han
- Abstract要約: マルチビュー画像の大規模データセットであるMVImgNetを紹介する。
238のクラスからオブジェクトを横断する219,188本の動画から650万フレームが収録されている。
それは、私たちのデータセットに3D対応の信号を与え、2Dと3Dのビジョンの間に柔らかい橋となる。
- 参考スコア(独自算出の注目度): 40.406715034257466
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Being data-driven is one of the most iconic properties of deep learning
algorithms. The birth of ImageNet drives a remarkable trend of "learning from
large-scale data" in computer vision. Pretraining on ImageNet to obtain rich
universal representations has been manifested to benefit various 2D visual
tasks, and becomes a standard in 2D vision. However, due to the laborious
collection of real-world 3D data, there is yet no generic dataset serving as a
counterpart of ImageNet in 3D vision, thus how such a dataset can impact the 3D
community is unraveled. To remedy this defect, we introduce MVImgNet, a
large-scale dataset of multi-view images, which is highly convenient to gain by
shooting videos of real-world objects in human daily life. It contains 6.5
million frames from 219,188 videos crossing objects from 238 classes, with rich
annotations of object masks, camera parameters, and point clouds. The
multi-view attribute endows our dataset with 3D-aware signals, making it a soft
bridge between 2D and 3D vision.
We conduct pilot studies for probing the potential of MVImgNet on a variety
of 3D and 2D visual tasks, including radiance field reconstruction, multi-view
stereo, and view-consistent image understanding, where MVImgNet demonstrates
promising performance, remaining lots of possibilities for future explorations.
Besides, via dense reconstruction on MVImgNet, a 3D object point cloud
dataset is derived, called MVPNet, covering 87,200 samples from 150 categories,
with the class label on each point cloud. Experiments show that MVPNet can
benefit the real-world 3D object classification while posing new challenges to
point cloud understanding.
MVImgNet and MVPNet will be publicly available, hoping to inspire the broader
vision community.
- Abstract(参考訳): データ駆動であることは、ディープラーニングアルゴリズムの最も象徴的な特性の1つです。
imagenetの誕生は、コンピュータビジョンにおける"大規模データからの学習"の顕著なトレンドを駆動している。
リッチな普遍表現を得るためにImageNetで事前トレーニングを行うことで、様々な2次元視覚タスクの恩恵が得られ、2次元視覚の標準となる。
しかし、実世界の3dデータの収集に手間がかかるため、3dビジョンにおけるimagenetの対応する汎用データセットは存在せず、そのようなデータセットが3dコミュニティにどのように影響するかは不明だ。
この欠陥を補うために,マルチビュー画像の大規模データセットであるMVImgNetを導入する。
238クラスのオブジェクトを横断する219,188ビデオから650万フレーム、オブジェクトマスク、カメラパラメータ、ポイントクラウドの豊富なアノテーションを含んでいる。
マルチビュー属性は、私たちのデータセットに3D対応の信号を与え、2Dと3Dのビジョンの間に柔らかい橋となる。
我々は,MVImgNetの様々な3次元および2次元視覚タスクにおける可能性を探るため,レーダランスフィールド再構成,マルチビューステレオ,ビュー一貫性画像理解などのパイロット研究を行い,MVImgNetが有望な性能を示し,今後の探索の可能性の多くを継続する。
さらに、MVImgNetで密に再構築された3DオブジェクトポイントクラウドデータセットはMVPNetと呼ばれ、150のカテゴリから87,200のサンプルをカバーし、各ポイントクラウドにクラスラベルがある。
実験によれば、mvpnetはクラウド理解のための新たな課題を提起しながら、現実世界の3dオブジェクトの分類に役立つ。
MVImgNetとMVPNetは一般公開され、幅広いビジョンコミュニティに刺激を与えたいと考えている。
関連論文リスト
- From an Image to a Scene: Learning to Imagine the World from a Million 360 Videos [71.22810401256234]
オブジェクトやシーンの3次元理解は、人間が世界と対話する能力において重要な役割を果たす。
大規模合成およびオブジェクト中心の3Dデータセットは、オブジェクトの3D理解を持つモデルのトレーニングに有効であることが示されている。
我々は360-1M、360度ビデオデータセット、およびスケールの多様な視点から対応するフレームを効率的に見つけるプロセスを紹介した。
論文 参考訳(メタデータ) (2024-12-10T18:59:44Z) - MVImgNet2.0: A Larger-scale Dataset of Multi-view Images [45.54290711428792]
MVImgNetは238クラスの220万の現実世界のオブジェクトのマルチビュー画像を含む大規模なデータセットである。
本稿では,MVImgNetを520kのオブジェクトと515のカテゴリに拡張したMVImgNet2.0データセットを構築する。
論文 参考訳(メタデータ) (2024-12-02T12:10:04Z) - ImGeoNet: Image-induced Geometry-aware Voxel Representation for
Multi-view 3D Object Detection [24.29296860815032]
ImGeoNetは画像に基づく3Dオブジェクト検出フレームワークで、画像による幾何学的なボクセル表現によって3D空間をモデル化する。
我々は、ARKitScenes、ScanNetV2、ScanNet200という3つの屋内データセットで実験を行う。
本研究は,画像による幾何認識表現により,画像に基づく手法がより優れた検出精度を達成できることを示唆している。
論文 参考訳(メタデータ) (2023-08-17T16:49:38Z) - Multi-view Vision-Prompt Fusion Network: Can 2D Pre-trained Model Boost
3D Point Cloud Data-scarce Learning? [38.06639044139636]
本研究は,Multi-view Vision-Prompt Fusion Network (MvNet) を提案する。
MvNetは、3Dの複数ショットポイントのクラウドイメージ分類のために、最先端のパフォーマンスを新たに実現している。
論文 参考訳(メタデータ) (2023-04-20T11:39:41Z) - OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic
Perception, Reconstruction and Generation [107.71752592196138]
OmniObject3Dを提案する。OmniObject3Dは,大規模で高品質な3Dオブジェクトを持つ大語彙の3Dオブジェクトデータセットである。
190のカテゴリーで6,000のスキャン対象からなり、一般的な2Dデータセットと共通クラスを共有する。
それぞれの3Dオブジェクトは、2Dと3Dの両方のセンサーでキャプチャされ、テクスチャメッシュ、ポイントクラウド、マルチビューレンダリング画像、複数の実写ビデオを提供する。
論文 参考訳(メタデータ) (2023-01-18T18:14:18Z) - Multi-View Transformer for 3D Visual Grounding [64.30493173825234]
3次元視覚グラウンドリングのためのマルチビュー変換器(MVT)を提案する。
我々は3Dシーンを多視点空間に投影し、異なるビュー下の3Dシーンの位置情報を同時にモデル化して集約する。
論文 参考訳(メタデータ) (2022-04-05T12:59:43Z) - VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and
Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。
当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文 参考訳(メタデータ) (2021-11-29T08:51:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。