Fugu-MT 論文翻訳(概要): MVImgNet: A Large-scale Dataset of Multi-view Images

論文の概要: MVImgNet: A Large-scale Dataset of Multi-view Images

arxiv url: http://arxiv.org/abs/2303.06042v1
Date: Fri, 10 Mar 2023 16:31:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-13 14:26:55.022292
Title: MVImgNet: A Large-scale Dataset of Multi-view Images
Title（参考訳）: MVImgNet:マルチビュー画像の大規模データセット
Authors: Xianggang Yu, Mutian Xu, Yidan Zhang, Haolin Liu, Chongjie Ye, Yushuang Wu, Zizheng Yan, Chenming Zhu, Zhangyang Xiong, Tianyou Liang, Guanying Chen, Shuguang Cui, Xiaoguang Han
Abstract要約: マルチビュー画像の大規模データセットであるMVImgNetを紹介する。 238のクラスからオブジェクトを横断する219,188本の動画から650万フレームが収録されている。それは、私たちのデータセットに3D対応の信号を与え、2Dと3Dのビジョンの間に柔らかい橋となる。
参考スコア（独自算出の注目度）: 40.406715034257466
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Being data-driven is one of the most iconic properties of deep learning algorithms. The birth of ImageNet drives a remarkable trend of "learning from large-scale data" in computer vision. Pretraining on ImageNet to obtain rich universal representations has been manifested to benefit various 2D visual tasks, and becomes a standard in 2D vision. However, due to the laborious collection of real-world 3D data, there is yet no generic dataset serving as a counterpart of ImageNet in 3D vision, thus how such a dataset can impact the 3D community is unraveled. To remedy this defect, we introduce MVImgNet, a large-scale dataset of multi-view images, which is highly convenient to gain by shooting videos of real-world objects in human daily life. It contains 6.5 million frames from 219,188 videos crossing objects from 238 classes, with rich annotations of object masks, camera parameters, and point clouds. The multi-view attribute endows our dataset with 3D-aware signals, making it a soft bridge between 2D and 3D vision. We conduct pilot studies for probing the potential of MVImgNet on a variety of 3D and 2D visual tasks, including radiance field reconstruction, multi-view stereo, and view-consistent image understanding, where MVImgNet demonstrates promising performance, remaining lots of possibilities for future explorations. Besides, via dense reconstruction on MVImgNet, a 3D object point cloud dataset is derived, called MVPNet, covering 87,200 samples from 150 categories, with the class label on each point cloud. Experiments show that MVPNet can benefit the real-world 3D object classification while posing new challenges to point cloud understanding. MVImgNet and MVPNet will be publicly available, hoping to inspire the broader vision community.
Abstract（参考訳）: データ駆動であることは、ディープラーニングアルゴリズムの最も象徴的な特性の1つです。 imagenetの誕生は、コンピュータビジョンにおける"大規模データからの学習"の顕著なトレンドを駆動している。リッチな普遍表現を得るためにImageNetで事前トレーニングを行うことで、様々な2次元視覚タスクの恩恵が得られ、2次元視覚の標準となる。しかし、実世界の3dデータの収集に手間がかかるため、3dビジョンにおけるimagenetの対応する汎用データセットは存在せず、そのようなデータセットが3dコミュニティにどのように影響するかは不明だ。この欠陥を補うために,マルチビュー画像の大規模データセットであるMVImgNetを導入する。 238クラスのオブジェクトを横断する219,188ビデオから650万フレーム、オブジェクトマスク、カメラパラメータ、ポイントクラウドの豊富なアノテーションを含んでいる。マルチビュー属性は、私たちのデータセットに3D対応の信号を与え、2Dと3Dのビジョンの間に柔らかい橋となる。我々は,MVImgNetの様々な3次元および2次元視覚タスクにおける可能性を探るため,レーダランスフィールド再構成,マルチビューステレオ,ビュー一貫性画像理解などのパイロット研究を行い,MVImgNetが有望な性能を示し,今後の探索の可能性の多くを継続する。さらに、MVImgNetで密に再構築された3DオブジェクトポイントクラウドデータセットはMVPNetと呼ばれ、150のカテゴリから87,200のサンプルをカバーし、各ポイントクラウドにクラスラベルがある。実験によれば、mvpnetはクラウド理解のための新たな課題を提起しながら、現実世界の3dオブジェクトの分類に役立つ。 MVImgNetとMVPNetは一般公開され、幅広いビジョンコミュニティに刺激を与えたいと考えている。

関連論文リスト

Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness [73.72335146374543]
本稿では,3次元視覚指導を訓練手順に組み込んだ3次元視覚指導法(Ross3D)について紹介する。 Ross3Dは様々な3Dシーン理解ベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-04-02T16:59:55Z)
DSPNet: Dual-vision Scene Perception for Robust 3D Question Answering [106.96097136553105]
3次元質問回答(3D QA)では、テキストによって記述された位置の3Dシーンを理解し、周囲の環境を判断し、その状況下での質問に答える必要がある。既存の手法は通常、純粋な3次元点雲からのグローバルなシーン認識に依存しており、マルチビュー画像からのリッチな局所テクスチャの詳細の重要性を見落としている。本稿では,DSPNet(Dual-vision Scene Perception Network)を提案する。
論文参考訳（メタデータ） (2025-03-05T05:13:53Z)
From an Image to a Scene: Learning to Imagine the World from a Million 360 Videos [71.22810401256234]
オブジェクトやシーンの3次元理解は、人間が世界と対話する能力において重要な役割を果たす。大規模合成およびオブジェクト中心の3Dデータセットは、オブジェクトの3D理解を持つモデルのトレーニングに有効であることが示されている。我々は360-1M、360度ビデオデータセット、およびスケールの多様な視点から対応するフレームを効率的に見つけるプロセスを紹介した。
論文参考訳（メタデータ） (2024-12-10T18:59:44Z)
MVImgNet2.0: A Larger-scale Dataset of Multi-view Images [45.54290711428792]
MVImgNetは238クラスの220万の現実世界のオブジェクトのマルチビュー画像を含む大規模なデータセットである。本稿では,MVImgNetを520kのオブジェクトと515のカテゴリに拡張したMVImgNet2.0データセットを構築する。
論文参考訳（メタデータ） (2024-12-02T12:10:04Z)
MM-Point: Multi-View Information-Enhanced Multi-Modal Self-Supervised 3D Point Cloud Understanding [4.220064723125481]
マルチビュー2D情報は、3Dオブジェクトに対して優れた自己教師付き信号を提供することができる。 MM-Pointは、モーダル内およびモーダル間類似性目的によって駆動される。合成データセットModelNet40で92.4%、実世界のデータセットScanObjectNNで87.8%のピーク精度を達成した。
論文参考訳（メタデータ） (2024-02-15T15:10:17Z)
NPF-200: A Multi-Modal Eye Fixation Dataset and Method for Non-Photorealistic Videos [51.409547544747284]
NPF-200は、視線を固定した純粋にフォトリアリスティックでないビデオの大規模なマルチモーダルデータセットである。私たちは一連の分析を行い、このタスクについてより深い洞察を得ます。 NPSNetと呼ばれる広帯域周波数対応マルチモーダル非フォトリアリスティックサリエンシ検出モデルを提案する。
論文参考訳（メタデータ） (2023-08-23T14:25:22Z)
ImGeoNet: Image-induced Geometry-aware Voxel Representation for Multi-view 3D Object Detection [24.29296860815032]
ImGeoNetは画像に基づく3Dオブジェクト検出フレームワークで、画像による幾何学的なボクセル表現によって3D空間をモデル化する。我々は、ARKitScenes、ScanNetV2、ScanNet200という3つの屋内データセットで実験を行う。本研究は,画像による幾何認識表現により,画像に基づく手法がより優れた検出精度を達成できることを示唆している。
論文参考訳（メタデータ） (2023-08-17T16:49:38Z)
Multi-view Vision-Prompt Fusion Network: Can 2D Pre-trained Model Boost 3D Point Cloud Data-scarce Learning? [38.06639044139636]
本研究は,Multi-view Vision-Prompt Fusion Network (MvNet) を提案する。 MvNetは、3Dの複数ショットポイントのクラウドイメージ分類のために、最先端のパフォーマンスを新たに実現している。
論文参考訳（メタデータ） (2023-04-20T11:39:41Z)
WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language [31.691159120136064]
本稿では,自然言語記述とオンラインキャプチャによるマルチモーダル視覚データに基づく大規模動的シーンにおける3次元視覚接地作業について紹介する。本研究では,画像中のリッチな外観情報,位置,および点雲中の幾何学的手がかりをフル活用して,WildReferという新しい手法を提案する。われわれのデータセットは、野生の3Dビジュアルグラウンドの研究にとって重要なものであり、自動運転とサービスロボットの開発を促進する大きな可能性を秘めている。
論文参考訳（メタデータ） (2023-04-12T06:48:26Z)
OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation [107.71752592196138]
OmniObject3Dを提案する。OmniObject3Dは,大規模で高品質な3Dオブジェクトを持つ大語彙の3Dオブジェクトデータセットである。 190のカテゴリーで6,000のスキャン対象からなり、一般的な2Dデータセットと共通クラスを共有する。それぞれの3Dオブジェクトは、2Dと3Dの両方のセンサーでキャプチャされ、テクスチャメッシュ、ポイントクラウド、マルチビューレンダリング画像、複数の実写ビデオを提供する。
論文参考訳（メタデータ） (2023-01-18T18:14:18Z)
Multi-View Transformer for 3D Visual Grounding [64.30493173825234]
3次元視覚グラウンドリングのためのマルチビュー変換器(MVT)を提案する。我々は3Dシーンを多視点空間に投影し、異なるビュー下の3Dシーンの位置情報を同時にモデル化して集約する。
論文参考訳（メタデータ） (2022-04-05T12:59:43Z)
VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文参考訳（メタデータ） (2021-11-29T08:51:20Z)
3D Crowd Counting via Geometric Attention-guided Multi-View Fusion [50.520192402702015]
本稿では,3次元シーンレベルの密度マップと3次元特徴融合により,多視点群カウントタスクを解くことを提案する。 2D融合と比較すると、3D融合はz次元(高さ)に沿った人々のより多くの情報を抽出し、複数のビューにわたるスケールの変動に対処するのに役立つ。 3D密度マップは、和がカウントである2D密度マップの特性を保ちながら、群衆密度に関する3D情報も提供する。
論文参考訳（メタデータ） (2020-03-18T11:35:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。