論文の概要: Towards Foundation Models for 3D Vision: How Close Are We?
- arxiv url: http://arxiv.org/abs/2410.10799v1
- Date: Mon, 14 Oct 2024 17:57:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 19:24:59.031682
- Title: Towards Foundation Models for 3D Vision: How Close Are We?
- Title(参考訳): 3Dビジョンのための基礎モデルに向けて - どれくらい近いのか?
- Authors: Yiming Zuo, Karhan Kayan, Maggie Wang, Kevin Jeon, Jia Deng, Thomas L. Griffiths,
- Abstract要約: 3Dビジョンのための基礎モデルを構築することは、未解決の複雑な課題である。
我々は,視覚質問回答形式の基本的な3次元視覚タスクを網羅する新しい3次元視覚理解ベンチマークを構築した。
- 参考スコア(独自算出の注目度): 21.50293166371202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building a foundation model for 3D vision is a complex challenge that remains unsolved. Towards that goal, it is important to understand the 3D reasoning capabilities of current models as well as identify the gaps between these models and humans. Therefore, we construct a new 3D visual understanding benchmark that covers fundamental 3D vision tasks in the Visual Question Answering (VQA) format. We evaluate state-of-the-art Vision-Language Models (VLMs), specialized models, and human subjects on it. Our results show that VLMs generally perform poorly, while the specialized models are accurate but not robust, failing under geometric perturbations. In contrast, human vision continues to be the most reliable 3D visual system. We further demonstrate that neural networks align more closely with human 3D vision mechanisms compared to classical computer vision methods, and Transformer-based networks such as ViT align more closely with human 3D vision mechanisms than CNNs. We hope our study will benefit the future development of foundation models for 3D vision.
- Abstract(参考訳): 3Dビジョンのための基礎モデルを構築することは、未解決の複雑な課題である。
その目標に向けて、現在のモデルの3D推論能力を理解するとともに、これらのモデルと人間のギャップを特定することが重要である。
そこで我々は,視覚質問応答(VQA)フォーマットの基本的な3次元視覚タスクをカバーする新しい3次元視覚理解ベンチマークを構築した。
我々は、最先端のビジョン・ランゲージ・モデル(VLM)、専門モデル、その上の人的対象について評価する。
以上の結果から, VLMの精度は低いが, 精度は高いが, 幾何的摂動では頑健でないことが示唆された。
対照的に、人間の視覚は最も信頼できる3D視覚システムである。
さらに、ニューラルネットワークは従来のコンピュータビジョン方式と比較して人間の3D視覚機構とより密に一致していることを示し、ViTのようなトランスフォーマーベースのネットワークはCNNよりも人間の3D視覚機構とより密に一致している。
我々は3Dビジョンのための基礎モデルの開発に利益をもたらすことを願っている。
関連論文リスト
- Diffusion Models in 3D Vision: A Survey [11.116658321394755]
本稿では,3次元視覚タスクの拡散モデルを利用する最先端のアプローチについて概説する。
これらのアプローチには、3Dオブジェクト生成、形状補完、点雲再構成、シーン理解が含まれる。
本稿では,計算効率の向上,マルチモーダル融合の強化,大規模事前学習の活用などの可能性について論じる。
論文 参考訳(メタデータ) (2024-10-07T04:12:23Z) - Probing the 3D Awareness of Visual Foundation Models [56.68380136809413]
視覚基礎モデルの3次元認識を解析する。
凍結した特徴に対するタスク固有プローブとゼロショット推論手法を用いて実験を行う。
論文 参考訳(メタデータ) (2024-04-12T17:58:04Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding [47.58359136198136]
VisionGPT-3Dはマルチモーダル基盤モデルの強みを基盤として多目的なマルチモーダルフレームワークを提供する。
様々なSOTAビジョンモデルをシームレスに統合し、SOTAビジョンモデルの選択に自動化をもたらす。
2次元深度マップ解析に対応する適切な3次元メッシュ生成アルゴリズムを特定し、多様なマルチモーダル入力に基づいて最適な結果を生成する。
論文 参考訳(メタデータ) (2024-03-14T16:13:00Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - 3D Concept Learning and Reasoning from Multi-View Images [96.3088005719963]
3次元多視点視覚質問応答のための大規模ベンチマーク(3DMV-VQA)を提案する。
このデータセットは、約5kのシーンと600kのイメージで構成され、50kの質問と組み合わせられている。
本稿では,ニューラルネットワーク,2次元事前学習型視覚言語モデル,ニューラル推論演算子をシームレスに組み合わせた新しい3次元概念学習・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:59:49Z) - Can We Solve 3D Vision Tasks Starting from A 2D Vision Transformer? [111.11502241431286]
視覚変換器(ViT)は2次元画像理解タスクの解決に有効であることが証明されている。
2Dおよび3Dタスク用のViTは、これまでほとんど転送できない、非常に異なるアーキテクチャ設計を採用してきた。
本稿では,標準的な2D ViTアーキテクチャを用いて,3次元視覚世界を理解するという魅力的な約束を示す。
論文 参考訳(メタデータ) (2022-09-15T03:34:58Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。