論文の概要: Towards Foundation Models for 3D Vision: How Close Are We?
- arxiv url: http://arxiv.org/abs/2410.10799v1
- Date: Mon, 14 Oct 2024 17:57:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 19:24:59.031682
- Title: Towards Foundation Models for 3D Vision: How Close Are We?
- Title(参考訳): 3Dビジョンのための基礎モデルに向けて - どれくらい近いのか?
- Authors: Yiming Zuo, Karhan Kayan, Maggie Wang, Kevin Jeon, Jia Deng, Thomas L. Griffiths,
- Abstract要約: 3Dビジョンのための基礎モデルを構築することは、未解決の複雑な課題である。
我々は,視覚質問回答形式の基本的な3次元視覚タスクを網羅する新しい3次元視覚理解ベンチマークを構築した。
- 参考スコア(独自算出の注目度): 21.50293166371202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building a foundation model for 3D vision is a complex challenge that remains unsolved. Towards that goal, it is important to understand the 3D reasoning capabilities of current models as well as identify the gaps between these models and humans. Therefore, we construct a new 3D visual understanding benchmark that covers fundamental 3D vision tasks in the Visual Question Answering (VQA) format. We evaluate state-of-the-art Vision-Language Models (VLMs), specialized models, and human subjects on it. Our results show that VLMs generally perform poorly, while the specialized models are accurate but not robust, failing under geometric perturbations. In contrast, human vision continues to be the most reliable 3D visual system. We further demonstrate that neural networks align more closely with human 3D vision mechanisms compared to classical computer vision methods, and Transformer-based networks such as ViT align more closely with human 3D vision mechanisms than CNNs. We hope our study will benefit the future development of foundation models for 3D vision.
- Abstract(参考訳): 3Dビジョンのための基礎モデルを構築することは、未解決の複雑な課題である。
その目標に向けて、現在のモデルの3D推論能力を理解するとともに、これらのモデルと人間のギャップを特定することが重要である。
そこで我々は,視覚質問応答(VQA)フォーマットの基本的な3次元視覚タスクをカバーする新しい3次元視覚理解ベンチマークを構築した。
我々は、最先端のビジョン・ランゲージ・モデル(VLM)、専門モデル、その上の人的対象について評価する。
以上の結果から, VLMの精度は低いが, 精度は高いが, 幾何的摂動では頑健でないことが示唆された。
対照的に、人間の視覚は最も信頼できる3D視覚システムである。
さらに、ニューラルネットワークは従来のコンピュータビジョン方式と比較して人間の3D視覚機構とより密に一致していることを示し、ViTのようなトランスフォーマーベースのネットワークはCNNよりも人間の3D視覚機構とより密に一致している。
我々は3Dビジョンのための基礎モデルの開発に利益をもたらすことを願っている。
関連論文リスト
- You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale [42.67300636733286]
本研究では,オープンワールド3D制作のための大規模インターネットビデオを用いた視覚条件付き多視点拡散モデルであるSee3Dを提案する。
このモデルは、広大かつ急速に成長するビデオデータから視覚的内容だけを見ることによって、3Dの知識を得ることを目的としている。
低コストでスケーラブルなビデオデータに基づいて訓練されたSee3Dは、ゼロショットおよびオープンワールド生成能力に優れることを示す。
論文 参考訳(メタデータ) (2024-12-09T17:44:56Z) - Multiview Equivariance Improves 3D Correspondence Understanding with Minimal Feature Finetuning [10.51523800391153]
我々は、VTベースのモデルの3次元認識を評価し、強化する。
本稿では,3次元対応に基づく簡易かつ効果的なファインタニング戦略を提案する。
論文 参考訳(メタデータ) (2024-11-29T04:02:11Z) - VISTA3D: A Unified Segmentation Foundation Model For 3D Medical Imaging [18.111368889931885]
VISTA3D,Versatile Imaging SegmenTation,voxel modelを提案する。
確立された3Dセグメンテーションパイプライン上に構築されている。
これは、3D自動(127クラスのサポート)と3Dインタラクティブセグメンテーションの両方で最先端のパフォーマンスを達成する最初のモデルである。
論文 参考訳(メタデータ) (2024-06-07T22:41:39Z) - Probing the 3D Awareness of Visual Foundation Models [56.68380136809413]
視覚基礎モデルの3次元認識を解析する。
凍結した特徴に対するタスク固有プローブとゼロショット推論手法を用いて実験を行う。
論文 参考訳(メタデータ) (2024-04-12T17:58:04Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - 3D Concept Learning and Reasoning from Multi-View Images [96.3088005719963]
3次元多視点視覚質問応答のための大規模ベンチマーク(3DMV-VQA)を提案する。
このデータセットは、約5kのシーンと600kのイメージで構成され、50kの質問と組み合わせられている。
本稿では,ニューラルネットワーク,2次元事前学習型視覚言語モデル,ニューラル推論演算子をシームレスに組み合わせた新しい3次元概念学習・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:59:49Z) - Can We Solve 3D Vision Tasks Starting from A 2D Vision Transformer? [111.11502241431286]
視覚変換器(ViT)は2次元画像理解タスクの解決に有効であることが証明されている。
2Dおよび3Dタスク用のViTは、これまでほとんど転送できない、非常に異なるアーキテクチャ設計を採用してきた。
本稿では,標準的な2D ViTアーキテクチャを用いて,3次元視覚世界を理解するという魅力的な約束を示す。
論文 参考訳(メタデータ) (2022-09-15T03:34:58Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。