論文の概要: GIQ: Benchmarking 3D Geometric Reasoning of Vision Foundation Models with Simulated and Real Polyhedra
- arxiv url: http://arxiv.org/abs/2506.08194v2
- Date: Wed, 11 Jun 2025 02:23:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 16:13:48.043642
- Title: GIQ: Benchmarking 3D Geometric Reasoning of Vision Foundation Models with Simulated and Real Polyhedra
- Title(参考訳): GIQ:シミュレートされた実ポリヘドラを用いたビジョンファウンデーションモデルの3次元幾何学的推論のベンチマーク
- Authors: Mateusz Michalkiewicz, Anekha Sokhal, Tadeusz Michalkiewicz, Piotr Pawlikowski, Mahsa Baktashmotlagh, Varun Jampani, Guha Balakrishnan,
- Abstract要約: 本稿では,視覚モデルと視覚言語基礎モデルの幾何学的推論能力を評価するためのベンチマークであるGIQを紹介する。
GIQは224種類の多面体からなる合成および実世界の画像からなる。
- 参考スコア(独自算出の注目度): 33.53387523266523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular 3D reconstruction methods and vision-language models (VLMs) demonstrate impressive results on standard benchmarks, yet their true understanding of geometric properties remains unclear. We introduce GIQ , a comprehensive benchmark specifically designed to evaluate the geometric reasoning capabilities of vision and vision-language foundation models. GIQ comprises synthetic and real-world images of 224 diverse polyhedra - including Platonic, Archimedean, Johnson, and Catalan solids, as well as stellations and compound shapes - covering varying levels of complexity and symmetry. Through systematic experiments involving monocular 3D reconstruction, 3D symmetry detection, mental rotation tests, and zero-shot shape classification tasks, we reveal significant shortcomings in current models. State-of-the-art reconstruction algorithms trained on extensive 3D datasets struggle to reconstruct even basic geometric forms accurately. While foundation models effectively detect specific 3D symmetry elements via linear probing, they falter significantly in tasks requiring detailed geometric differentiation, such as mental rotation. Moreover, advanced vision-language assistants exhibit remarkably low accuracy on complex polyhedra, systematically misinterpreting basic properties like face geometry, convexity, and compound structures. GIQ is publicly available, providing a structured platform to highlight and address critical gaps in geometric intelligence, facilitating future progress in robust, geometry-aware representation learning.
- Abstract(参考訳): 単分子的3次元再構成法と視覚言語モデル(VLM)は標準ベンチマークで印象的な結果を示したが、それらの幾何学的性質の真の理解はいまだ不明である。
我々は、視覚と視覚言語基礎モデルの幾何学的推論能力を評価するために特別に設計された総合的なベンチマークであるGIQ を紹介する。
GIQは、プラトン、アルキメデス、ジョンソン、カタルーニャの固体を含む224種類の多面体からなる合成および実世界の画像と、恒星と複合の形状で構成され、複雑さと対称性の様々なレベルをカバーする。
モノクロ3次元再構成, 3次元対称性検出, 心的回転試験, ゼロショット形状分類タスクを含む系統的な実験により, 現在のモデルにおいて重大な欠点が明らかとなった。
広範囲な3Dデータセットで訓練された最先端の再構築アルゴリズムは、基本的な幾何学的形式を正確に再構築するのに苦労する。
基礎モデルは線形探索によって特定の3次元対称性要素を効果的に検出するが、それらは心的回転のような詳細な幾何学的微分を必要とするタスクにおいて著しく失敗する。
さらに、高度な視覚言語アシスタントは複雑な多面体に対して驚くほど低い精度を示し、顔幾何学、凸性、複合構造といった基本的な性質を体系的に誤解している。
GIQは、幾何学的インテリジェンスにおける重要なギャップを強調し、対処するための構造化されたプラットフォームを提供し、堅牢で幾何学を意識した表現学習の今後の進歩を促進する。
関連論文リスト
- Training-free zero-shot 3D symmetry detection with visual features back-projected to geometry [0.6445605125467574]
DINOv2のような基礎視覚モデルから視覚的特徴を利用するゼロショット3次元対称性検出のための訓練不要アプローチを提案する。
我々の研究は、基礎視覚モデルが対称性検出のような複雑な3次元幾何学的問題を解くのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2025-05-30T03:09:18Z) - GTR: Gaussian Splatting Tracking and Reconstruction of Unknown Objects Based on Appearance and Geometric Complexity [49.31257173003408]
モノクローナルRGBDビデオからの6-DoFオブジェクト追跡と高品質な3D再構成のための新しい手法を提案する。
提案手法は, 高忠実度オブジェクトメッシュを復元する強力な能力を示し, オープンワールド環境における単一センサ3D再構成のための新しい標準を策定する。
論文 参考訳(メタデータ) (2025-05-17T08:46:29Z) - Geometry-guided Feature Learning and Fusion for Indoor Scene Reconstruction [14.225228781008209]
本稿では3次元シーン再構成のための新しい幾何学的統合機構を提案する。
提案手法は,特徴学習,特徴融合,ネットワーク監視という3段階の3次元幾何学を取り入れている。
論文 参考訳(メタデータ) (2024-08-28T08:02:47Z) - LIST: Learning Implicitly from Spatial Transformers for Single-View 3D
Reconstruction [5.107705550575662]
Listは、局所的およびグローバルな画像特徴を活用して、単一の画像から3Dオブジェクトの幾何学的および位相的構造を再構築する、新しいニューラルネットワークである。
合成画像と実世界の画像から3Dオブジェクトを再構成する際のモデルの有用性を示す。
論文 参考訳(メタデータ) (2023-07-23T01:01:27Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Pix2Surf: Learning Parametric 3D Surface Models of Objects from Images [64.53227129573293]
1つ以上の視点から見れば、新しいオブジェクトの3次元パラメトリック表面表現を学習する際の課題について検討する。
ビュー間で一貫した高品質なパラメトリックな3次元表面を生成できるニューラルネットワークを設計する。
提案手法は,共通対象カテゴリからの形状の公開データセットに基づいて,教師と訓練を行う。
論文 参考訳(メタデータ) (2020-08-18T06:33:40Z) - DSG-Net: Learning Disentangled Structure and Geometry for 3D Shape
Generation [98.96086261213578]
DSG-Netは3次元形状の非交叉構造と幾何学的メッシュ表現を学習するディープニューラルネットワークである。
これは、幾何(構造)を不変に保ちながら構造(幾何学)のような不整合制御を持つ新しい形状生成アプリケーションの範囲をサポートする。
本手法は,制御可能な生成アプリケーションだけでなく,高品質な合成形状を生成できる。
論文 参考訳(メタデータ) (2020-08-12T17:06:51Z) - Learning Unsupervised Hierarchical Part Decomposition of 3D Objects from
a Single RGB Image [102.44347847154867]
プリミティブの集合として3次元オブジェクトの幾何を共同で復元できる新しい定式化を提案する。
我々のモデルは、プリミティブのバイナリツリーの形で、様々なオブジェクトの高レベルな構造的分解を復元する。
ShapeNet と D-FAUST のデータセットを用いた実験により,部品の組織化を考慮すれば3次元形状の推論が容易になることが示された。
論文 参考訳(メタデータ) (2020-04-02T17:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。