論文の概要: BareBones: Benchmarking Zero-Shot Geometric Comprehension in VLMs
- arxiv url: http://arxiv.org/abs/2604.10528v1
- Date: Sun, 12 Apr 2026 08:46:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.076318
- Title: BareBones: Benchmarking Zero-Shot Geometric Comprehension in VLMs
- Title(参考訳): BareBones: VLMにおけるゼロショット幾何学的理解のベンチマーク
- Authors: Aaditya Baranwal, Vishal Yadav, Abhishek Rajora,
- Abstract要約: textbfBareBonesは、純粋な幾何学的形状の理解をストレステストするために設計されたゼロショットベンチマークである。
また、WTP-Benchは、境界輪郭のみからクラス間の幾何学的概念を識別するようモデルに強制する、極端にきめ細かな視覚パズルである。
- 参考スコア(独自算出の注目度): 0.688204255655161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Vision-Language Models (VLMs) demonstrate remarkable zero-shot recognition capabilities across a diverse spectrum of multimodal tasks, it yet remains an open question whether these architectures genuinely comprehend geometric structure or merely exploit RGB textures and contextual priors as statistical shortcuts. Existing evaluations fail to isolate this mechanism, conflating semantic reasoning with texture mapping and relying on imprecise annotations that inadvertently leak environmental cues. To address this gap, we introduce \textbf{BareBones}, a zero-shot benchmark designed to stress-test pure geometric shape comprehension. We curate pixel-level silhouettes of geometrically distinct classes across six datasets: five established segmentation sources (ImageNet-S, DIS5K, ThinObject5K, PASCAL VOC, CUB-200) and our novel flagship collection, WTP-Bench, establishing a noise-free geometric taxonomy. WTP-Bench is an extreme, fine-grained visual puzzle that forces models to identify inter-class geometric concepts from boundary contours alone. Our evaluation of 26 state-of-the-art proprietary and open-weight VLMs (\eg, GPT-4.1, Gemini, Claude Sonnet 4.5, LLaVA) reveals a consistent, severe performance collapse under RGB deprivation, a phenomenon we term the \textit{Texture Bias Cliff}. By documenting universal structural blindspots, BareBones establishes a rigorous yardstick for genuine geometric grounding.
- Abstract(参考訳): VLM(Vision-Language Models)は多様なマルチモーダルタスクにまたがる顕著なゼロショット認識能力を示すが、これらのアーキテクチャが実際に幾何学的構造を理解しているか、あるいは単にRGBテクスチャや文脈的事前を統計的ショートカットとして活用するかは、まだ未解決のままである。
既存の評価では、このメカニズムの分離に失敗し、テクスチャマッピングとセマンティック推論を混同し、意図せず環境基準を漏らす不正確なアノテーションに依存している。
このギャップに対処するために、ゼロショットベンチマークである \textbf{BareBones} を導入する。
5つの確立されたセグメンテーション源(ImageNet-S, DIS5K, ThinObject5K, PASCAL VOC, CUB-200)と新しいフラッグシップコレクションであるWTP-Bench(WTP-Bench)を作成し、ノイズフリーな幾何学分類法を確立した。
WTP-ベンチ(WTP-Bench)は、境界輪郭のみからクラス間の幾何学的概念を識別するようモデルに強制する、極端できめ細かな視覚パズルである。
我々は,26の最先端プロプライエタリかつオープンウェイトなVLM (\eg, GPT-4.1, Gemini, Claude Sonnet 4.5, LLaVA) の評価を行った。
普遍的な構造的な盲点を文書化することによって、BareBonesは真の幾何学的接地のための厳密なヤードスティックを確立する。
関連論文リスト
- Learning 3D Representations for Spatial Intelligence from Unposed Multi-View Images [81.94999489820974]
UniSplat (UniSplat) は、未提示のマルチビュー画像から3D表現を学習するためのフィードフォワードフレームワークである。
エンコーダにおける幾何誘導を強化するデュアルマスキング戦略を導入する。
第2に,外見のセマンティックな矛盾を解消する粗大なガウス的スプレイティング戦略を開発する。
第3に、予測された3次元点と意味マップを画像平面に相互に関連付ける、ポーズ条件の補正機構を導入する。
論文 参考訳(メタデータ) (2026-04-12T10:36:18Z) - GLASS: Graph and Vision-Language Assisted Semantic Shape Correspondence [16.503835991826367]
GLASSは、幾何学的スペクトル分析と、視覚言語基礎モデルからのリッチなセマンティック先行情報を統合することでギャップを埋めるフレームワークである。
i) 強力なビジョン基盤モデルから堅牢な多視点視覚特徴抽出を可能にするビュー一貫性戦略。
クラス間ベンチマークSMALと非等尺ベンチマークSMALとTOPKIDSの平均測地誤差は0.21、4.5、および5.6であり、それぞれ0.49、6.0、8.9のURSSMベースラインからの誤差を57%、25%、および37%削減している。
論文 参考訳(メタデータ) (2026-03-08T14:33:50Z) - PointCoT: A Multi-modal Benchmark for Explicit 3D Geometric Reasoning [82.55361351483005]
我々は,3次元データに対する明示的なチェーン・オブ・ソート(CoT)推論でMLLMを強化する新しいフレームワークであるPointCoTを提案する。
両ストリームのマルチモーダルアーキテクチャを活用することで,幾何学的真理とセマンティックな外観を相乗化することができる。
論文 参考訳(メタデータ) (2026-02-27T11:47:45Z) - Bridging Structure and Appearance: Topological Features for Robust Self-Supervised Segmentation [8.584363058858935]
自己教師付きセマンティックセグメンテーション法は、外観の曖昧さに直面して失敗することが多い。
これは、影、光沢、局所的なテクスチャといった不安定で外観に基づく特徴に過度に依存しているためである、と我々は主張する。
安定な位相情報を活用することで外観と幾何学を橋渡しする新しいフレームワークである textbfGASeg を提案する。
論文 参考訳(メタデータ) (2025-12-30T05:34:28Z) - GLaD: Geometric Latent Distillation for Vision-Language-Action Models [106.53332923530245]
GLaDは、知識蒸留による事前学習中に3次元の幾何学的先行を組み込んだ幾何学的認識型視覚・言語・アクション(VLA)フレームワークである。
GLaDは4つのLIBEROタスクスイートの平均成功率は94.1%で、同じ事前トレーニングデータを使用するUniVLA(92.5%)を上回っている。
論文 参考訳(メタデータ) (2025-12-10T13:07:27Z) - Seeing 3D Through 2D Lenses: 3D Few-Shot Class-Incremental Learning via Cross-Modal Geometric Rectification [59.17489431187807]
本稿では,CLIPの階層的空間意味論を活用することで3次元幾何学的忠実度を高めるフレームワークを提案する。
本手法は3次元のクラスインクリメンタル学習を著しく改善し,テクスチャバイアスに対して優れた幾何コヒーレンスとロバスト性を実現する。
論文 参考訳(メタデータ) (2025-09-18T13:45:08Z) - Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [9.411542547451193]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。
具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。
これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文 参考訳(メタデータ) (2025-06-17T07:04:07Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。