論文の概要: MVImgNet: A Large-scale Dataset of Multi-view Images
- arxiv url: http://arxiv.org/abs/2303.06042v1
- Date: Fri, 10 Mar 2023 16:31:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 14:26:55.022292
- Title: MVImgNet: A Large-scale Dataset of Multi-view Images
- Title(参考訳): MVImgNet:マルチビュー画像の大規模データセット
- Authors: Xianggang Yu, Mutian Xu, Yidan Zhang, Haolin Liu, Chongjie Ye,
Yushuang Wu, Zizheng Yan, Chenming Zhu, Zhangyang Xiong, Tianyou Liang,
Guanying Chen, Shuguang Cui, Xiaoguang Han
- Abstract要約: マルチビュー画像の大規模データセットであるMVImgNetを紹介する。
238のクラスからオブジェクトを横断する219,188本の動画から650万フレームが収録されている。
それは、私たちのデータセットに3D対応の信号を与え、2Dと3Dのビジョンの間に柔らかい橋となる。
- 参考スコア(独自算出の注目度): 40.406715034257466
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Being data-driven is one of the most iconic properties of deep learning
algorithms. The birth of ImageNet drives a remarkable trend of "learning from
large-scale data" in computer vision. Pretraining on ImageNet to obtain rich
universal representations has been manifested to benefit various 2D visual
tasks, and becomes a standard in 2D vision. However, due to the laborious
collection of real-world 3D data, there is yet no generic dataset serving as a
counterpart of ImageNet in 3D vision, thus how such a dataset can impact the 3D
community is unraveled. To remedy this defect, we introduce MVImgNet, a
large-scale dataset of multi-view images, which is highly convenient to gain by
shooting videos of real-world objects in human daily life. It contains 6.5
million frames from 219,188 videos crossing objects from 238 classes, with rich
annotations of object masks, camera parameters, and point clouds. The
multi-view attribute endows our dataset with 3D-aware signals, making it a soft
bridge between 2D and 3D vision.
We conduct pilot studies for probing the potential of MVImgNet on a variety
of 3D and 2D visual tasks, including radiance field reconstruction, multi-view
stereo, and view-consistent image understanding, where MVImgNet demonstrates
promising performance, remaining lots of possibilities for future explorations.
Besides, via dense reconstruction on MVImgNet, a 3D object point cloud
dataset is derived, called MVPNet, covering 87,200 samples from 150 categories,
with the class label on each point cloud. Experiments show that MVPNet can
benefit the real-world 3D object classification while posing new challenges to
point cloud understanding.
MVImgNet and MVPNet will be publicly available, hoping to inspire the broader
vision community.
- Abstract(参考訳): データ駆動であることは、ディープラーニングアルゴリズムの最も象徴的な特性の1つです。
imagenetの誕生は、コンピュータビジョンにおける"大規模データからの学習"の顕著なトレンドを駆動している。
リッチな普遍表現を得るためにImageNetで事前トレーニングを行うことで、様々な2次元視覚タスクの恩恵が得られ、2次元視覚の標準となる。
しかし、実世界の3dデータの収集に手間がかかるため、3dビジョンにおけるimagenetの対応する汎用データセットは存在せず、そのようなデータセットが3dコミュニティにどのように影響するかは不明だ。
この欠陥を補うために,マルチビュー画像の大規模データセットであるMVImgNetを導入する。
238クラスのオブジェクトを横断する219,188ビデオから650万フレーム、オブジェクトマスク、カメラパラメータ、ポイントクラウドの豊富なアノテーションを含んでいる。
マルチビュー属性は、私たちのデータセットに3D対応の信号を与え、2Dと3Dのビジョンの間に柔らかい橋となる。
我々は,MVImgNetの様々な3次元および2次元視覚タスクにおける可能性を探るため,レーダランスフィールド再構成,マルチビューステレオ,ビュー一貫性画像理解などのパイロット研究を行い,MVImgNetが有望な性能を示し,今後の探索の可能性の多くを継続する。
さらに、MVImgNetで密に再構築された3DオブジェクトポイントクラウドデータセットはMVPNetと呼ばれ、150のカテゴリから87,200のサンプルをカバーし、各ポイントクラウドにクラスラベルがある。
実験によれば、mvpnetはクラウド理解のための新たな課題を提起しながら、現実世界の3dオブジェクトの分類に役立つ。
MVImgNetとMVPNetは一般公開され、幅広いビジョンコミュニティに刺激を与えたいと考えている。
関連論文リスト
- MM-Point: Multi-View Information-Enhanced Multi-Modal Self-Supervised 3D
Point Cloud Understanding [4.220064723125481]
マルチビュー2D情報は、3Dオブジェクトに対して優れた自己教師付き信号を提供することができる。
MM-Pointは、モーダル内およびモーダル間類似性目的によって駆動される。
合成データセットModelNet40で92.4%、実世界のデータセットScanObjectNNで87.8%のピーク精度を達成した。
論文 参考訳(メタデータ) (2024-02-15T15:10:17Z) - NPF-200: A Multi-Modal Eye Fixation Dataset and Method for
Non-Photorealistic Videos [51.409547544747284]
NPF-200は、視線を固定した純粋にフォトリアリスティックでないビデオの大規模なマルチモーダルデータセットである。
私たちは一連の分析を行い、このタスクについてより深い洞察を得ます。
NPSNetと呼ばれる広帯域周波数対応マルチモーダル非フォトリアリスティックサリエンシ検出モデルを提案する。
論文 参考訳(メタデータ) (2023-08-23T14:25:22Z) - ImGeoNet: Image-induced Geometry-aware Voxel Representation for
Multi-view 3D Object Detection [24.29296860815032]
ImGeoNetは画像に基づく3Dオブジェクト検出フレームワークで、画像による幾何学的なボクセル表現によって3D空間をモデル化する。
我々は、ARKitScenes、ScanNetV2、ScanNet200という3つの屋内データセットで実験を行う。
本研究は,画像による幾何認識表現により,画像に基づく手法がより優れた検出精度を達成できることを示唆している。
論文 参考訳(メタデータ) (2023-08-17T16:49:38Z) - Multi-view Vision-Prompt Fusion Network: Can 2D Pre-trained Model Boost
3D Point Cloud Data-scarce Learning? [38.06639044139636]
本研究は,Multi-view Vision-Prompt Fusion Network (MvNet) を提案する。
MvNetは、3Dの複数ショットポイントのクラウドイメージ分類のために、最先端のパフォーマンスを新たに実現している。
論文 参考訳(メタデータ) (2023-04-20T11:39:41Z) - WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language [31.691159120136064]
本稿では,自然言語記述とオンラインキャプチャによるマルチモーダル視覚データに基づく大規模動的シーンにおける3次元視覚接地作業について紹介する。
本研究では,画像中のリッチな外観情報,位置,および点雲中の幾何学的手がかりをフル活用して,WildReferという新しい手法を提案する。
われわれのデータセットは、野生の3Dビジュアルグラウンドの研究にとって重要なものであり、自動運転とサービスロボットの開発を促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-04-12T06:48:26Z) - OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic
Perception, Reconstruction and Generation [107.71752592196138]
OmniObject3Dを提案する。OmniObject3Dは,大規模で高品質な3Dオブジェクトを持つ大語彙の3Dオブジェクトデータセットである。
190のカテゴリーで6,000のスキャン対象からなり、一般的な2Dデータセットと共通クラスを共有する。
それぞれの3Dオブジェクトは、2Dと3Dの両方のセンサーでキャプチャされ、テクスチャメッシュ、ポイントクラウド、マルチビューレンダリング画像、複数の実写ビデオを提供する。
論文 参考訳(メタデータ) (2023-01-18T18:14:18Z) - Multi-View Transformer for 3D Visual Grounding [64.30493173825234]
3次元視覚グラウンドリングのためのマルチビュー変換器(MVT)を提案する。
我々は3Dシーンを多視点空間に投影し、異なるビュー下の3Dシーンの位置情報を同時にモデル化して集約する。
論文 参考訳(メタデータ) (2022-04-05T12:59:43Z) - VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and
Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。
当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文 参考訳(メタデータ) (2021-11-29T08:51:20Z) - 3D Crowd Counting via Geometric Attention-guided Multi-View Fusion [50.520192402702015]
本稿では,3次元シーンレベルの密度マップと3次元特徴融合により,多視点群カウントタスクを解くことを提案する。
2D融合と比較すると、3D融合はz次元(高さ)に沿った人々のより多くの情報を抽出し、複数のビューにわたるスケールの変動に対処するのに役立つ。
3D密度マップは、和がカウントである2D密度マップの特性を保ちながら、群衆密度に関する3D情報も提供する。
論文 参考訳(メタデータ) (2020-03-18T11:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。