論文の概要: MVImgNet2.0: A Larger-scale Dataset of Multi-view Images
- arxiv url: http://arxiv.org/abs/2412.01430v1
- Date: Mon, 02 Dec 2024 12:10:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:48:01.219677
- Title: MVImgNet2.0: A Larger-scale Dataset of Multi-view Images
- Title(参考訳): MVImgNet2.0:マルチビュー画像の大規模データセット
- Authors: Xiaoguang Han, Yushuang Wu, Luyue Shi, Haolin Liu, Hongjie Liao, Lingteng Qiu, Weihao Yuan, Xiaodong Gu, Zilong Dong, Shuguang Cui,
- Abstract要約: MVImgNetは238クラスの220万の現実世界のオブジェクトのマルチビュー画像を含む大規模なデータセットである。
本稿では,MVImgNetを520kのオブジェクトと515のカテゴリに拡張したMVImgNet2.0データセットを構築する。
- 参考スコア(独自算出の注目度): 45.54290711428792
- License:
- Abstract: MVImgNet is a large-scale dataset that contains multi-view images of ~220k real-world objects in 238 classes. As a counterpart of ImageNet, it introduces 3D visual signals via multi-view shooting, making a soft bridge between 2D and 3D vision. This paper constructs the MVImgNet2.0 dataset that expands MVImgNet into a total of ~520k objects and 515 categories, which derives a 3D dataset with a larger scale that is more comparable to ones in the 2D domain. In addition to the expanded dataset scale and category range, MVImgNet2.0 is of a higher quality than MVImgNet owing to four new features: (i) most shoots capture 360-degree views of the objects, which can support the learning of object reconstruction with completeness; (ii) the segmentation manner is advanced to produce foreground object masks of higher accuracy; (iii) a more powerful structure-from-motion method is adopted to derive the camera pose for each frame of a lower estimation error; (iv) higher-quality dense point clouds are reconstructed via advanced methods for objects captured in 360-degree views, which can serve for downstream applications. Extensive experiments confirm the value of the proposed MVImgNet2.0 in boosting the performance of large 3D reconstruction models. MVImgNet2.0 will be public at luyues.github.io/mvimgnet2, including multi-view images of all 520k objects, the reconstructed high-quality point clouds, and data annotation codes, hoping to inspire the broader vision community.
- Abstract(参考訳): MVImgNetは238クラスの約220kの現実世界のオブジェクトのマルチビュー画像を含む大規模なデータセットである。
ImageNetの対抗として、多視点撮影による3D視覚信号を導入し、2Dと3Dの視覚の間に柔らかい橋を架けている。
本稿では,MVImgNetを約520kのオブジェクトと515のカテゴリに拡張したMVImgNet2.0データセットを構築する。
データセットのスケールとカテゴリ範囲の拡大に加えて、MVImgNet2.0は4つの新機能により、MVImgNetよりも高品質である。
(i)ほとんどのショットは、オブジェクトの360度ビューをキャプチャし、完全なオブジェクト再構築の学習を支援する。
二 前景の被写体マスクの精度を高めるため、セグメンテーションの方法が進んでいること。
三 低い推定誤差のフレームごとにカメラポーズを導出するために、より強力な動きからの構造法を採用すること。
(4) 高品質の高密度点雲は、360度ビューで捉えたオブジェクトの高度な手法によって再構成され、下流のアプリケーションに役立てることができる。
大規模な3次元再構成モデルの性能向上に向け,提案したMVImgNet2.0の有効性を確認した。
MVImgNet2.0 は Luyues.github.io/mvimgnet2 で公開され、520k オブジェクトのマルチビューイメージ、再構成された高品質のポイントクラウド、データアノテーションコードなどが含まれ、より広いビジョンコミュニティに刺激を与えることを期待している。
関連論文リスト
- PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape
Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。
PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文 参考訳(メタデータ) (2023-11-20T18:57:55Z) - ImGeoNet: Image-induced Geometry-aware Voxel Representation for
Multi-view 3D Object Detection [24.29296860815032]
ImGeoNetは画像に基づく3Dオブジェクト検出フレームワークで、画像による幾何学的なボクセル表現によって3D空間をモデル化する。
我々は、ARKitScenes、ScanNetV2、ScanNet200という3つの屋内データセットで実験を行う。
本研究は,画像による幾何認識表現により,画像に基づく手法がより優れた検出精度を達成できることを示唆している。
論文 参考訳(メタデータ) (2023-08-17T16:49:38Z) - Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文 参考訳(メタデータ) (2023-08-06T01:11:40Z) - SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and
Multi-View for 3D Object Retrieval [8.74845857766369]
大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。
本稿では,3次元オブジェクト検索のための点群と多視点画像の自己・横断的アグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-07-20T05:46:32Z) - MVImgNet: A Large-scale Dataset of Multi-view Images [40.406715034257466]
マルチビュー画像の大規模データセットであるMVImgNetを紹介する。
238のクラスからオブジェクトを横断する219,188本の動画から650万フレームが収録されている。
それは、私たちのデータセットに3D対応の信号を与え、2Dと3Dのビジョンの間に柔らかい橋となる。
論文 参考訳(メタデータ) (2023-03-10T16:31:31Z) - OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic
Perception, Reconstruction and Generation [107.71752592196138]
OmniObject3Dを提案する。OmniObject3Dは,大規模で高品質な3Dオブジェクトを持つ大語彙の3Dオブジェクトデータセットである。
190のカテゴリーで6,000のスキャン対象からなり、一般的な2Dデータセットと共通クラスを共有する。
それぞれの3Dオブジェクトは、2Dと3Dの両方のセンサーでキャプチャされ、テクスチャメッシュ、ポイントクラウド、マルチビューレンダリング画像、複数の実写ビデオを提供する。
論文 参考訳(メタデータ) (2023-01-18T18:14:18Z) - Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic
Segmentation [3.5939555573102853]
近年の3次元セマンティックセグメンテーションの研究は、各モータリティを専用ネットワークで処理することで、画像と点雲の相乗効果を活用することを提案する。
任意の位置で撮影された画像から特徴をマージするために,3Dポイントの視聴条件を利用したエンドツーエンドのトレーニング可能な多視点アグリゲーションモデルを提案する。
本手法は,標準的な2Dネットワークと3Dネットワークを組み合わせることで,カラー化された点群とハイブリッドな2D/3Dネットワーク上での3Dモデルの性能を向上する。
論文 参考訳(メタデータ) (2022-04-15T17:10:48Z) - VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and
Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。
当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文 参考訳(メタデータ) (2021-11-29T08:51:20Z) - Multi-Stage CNN-Based Monocular 3D Vehicle Localization and Orientation
Estimation [0.0]
本稿では,単眼カメラで撮影した2次元画像から3次元物体検出モデルを構築し,推定した鳥眼視高度マップと物体特徴の深部表現を組み合わせることを目的とする。
提案したモデルには、バックエンドネットワークとして事前トレーニングされたResNet-50ネットワークと、さらに3つのブランチがある。
論文 参考訳(メタデータ) (2020-11-24T18:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。