論文の概要: GLASS: Graph and Vision-Language Assisted Semantic Shape Correspondence
- arxiv url: http://arxiv.org/abs/2603.07652v1
- Date: Sun, 08 Mar 2026 14:33:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.002209
- Title: GLASS: Graph and Vision-Language Assisted Semantic Shape Correspondence
- Title(参考訳): GLASS: グラフと視覚言語による意味的形状対応
- Authors: Qinfeng Xiao, Guofeng Mei, Qilong Liu, Chenyuan Yi, Fabio Poiesi, Jian Zhang, Bo Yang, Yick Kit-lun,
- Abstract要約: GLASSは、幾何学的スペクトル分析と、視覚言語基礎モデルからのリッチなセマンティック先行情報を統合することでギャップを埋めるフレームワークである。
i) 強力なビジョン基盤モデルから堅牢な多視点視覚特徴抽出を可能にするビュー一貫性戦略。
クラス間ベンチマークSMALと非等尺ベンチマークSMALとTOPKIDSの平均測地誤差は0.21、4.5、および5.6であり、それぞれ0.49、6.0、8.9のURSSMベースラインからの誤差を57%、25%、および37%削減している。
- 参考スコア(独自算出の注目度): 16.503835991826367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Establishing dense correspondence across 3D shapes is crucial for fundamental downstream tasks, including texture transfer, shape interpolation, and robotic manipulation. However, learning these mappings without manual supervision remains a formidable challenge, particularly under severe non-isometric deformations and in inter-class settings where geometric cues are ambiguous. Conventional functional map methods, while elegant, typically struggle in these regimes due to their reliance on isometry. To address this, we present GLASS, a framework that bridges the gap by integrating geometric spectral analysis with rich semantic priors from vision-language foundation models. GLASS introduces three key innovations: (i) a view-consistent strategy that enables robust multi-view visual feature extraction from powerful vision foundation models; (ii) the injection of language embeddings into vertex descriptors via zero-shot 3D segmentation, capturing high-level part semantics; and (iii) a graph-assisted contrastive loss that enforces structural consistency between regions (e.g., source's head'' $\leftrightarrow$ target's head'') by leveraging geodesic and topological relationships between regions. This design allows GLASS to learn globally coherent and semantically consistent maps without ground-truth supervision. Extensive experiments demonstrate that GLASS achieves state-of-the-art performance across all regimes, maintaining high accuracy on standard near-isometric tasks while significantly advancing performance in challenging settings. Specifically, it achieves average geodesic errors of 0.21, 4.5, and 5.6 on the inter-class benchmark SNIS and non-isometric benchmarks SMAL and TOPKIDS, reducing errors from URSSM baselines of 0.49, 6.0, and 8.9 by 57%, 25%, and 37%, respectively.
- Abstract(参考訳): テクスチャ伝達、形状補間、ロボット操作など、下流の基本的なタスクには、3次元形状にまたがる密接な対応を確立することが不可欠である。
しかし、手動の監督なしにこれらのマッピングを学習することは、特に厳密な非等尺変形や幾何学的手がかりがあいまいなクラス間環境では、非常に難しい課題である。
従来の関数写像法はエレガントなものの、アイソメトリーに依存しているため、一般的にこれらの体制で苦労する。
そこで本研究では,幾何学的スペクトル分析と,視覚言語基礎モデルからの豊かなセマンティック先行情報を統合することで,ギャップを埋めるフレームワークであるGLASSを提案する。
GLASSは3つの重要なイノベーションを紹介している。
一 強力な視覚基盤モデルから堅牢な多視点視覚特徴抽出を可能にする視点一貫性戦略
(二)ゼロショット3Dセグメンテーションによる頂点記述子への言語埋め込みの注入、高レベル部分意味論のキャプチャ
(三)測地的・位相的関係を利用して、地域間の構造的整合性(例えば、ソースヘッドの$\leftrightarrow$ target''')を強制するグラフ支援コントラスト損失。
この設計により、GLASSは地球規模の一貫性とセマンティックな一貫性のある地図を、地道的な監督なしに学べる。
大規模な実験により、GLASSはすべてのレシエーションで最先端のパフォーマンスを達成し、標準的な近等距離タスクでは高い精度を維持しながら、挑戦的な設定では性能を大幅に向上することを示した。
具体的には、クラス間ベンチマークSNISと非等尺ベンチマークSMALとTOPKIDSの平均測地誤差0.21, 4.5, 5.6を達成し、それぞれ0.49, 6.0, 8.9のURSSMベースラインからの誤差を57%, 25%, 37%削減する。
関連論文リスト
- TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - SSR: Pushing the Limit of Spatial Intelligence with Structured Scene Reasoning [30.87517633729756]
SSRはStructured Scene Reasoning用に設計されたフレームワークである。
軽量アライメント機構によって2Dと3Dの表現をシームレスに統合する。
複数の空間インテリジェンスベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-28T02:05:35Z) - GeoFocus: Blending Efficient Global-to-Local Perception for Multimodal Geometry Problem-Solving [55.14836667214487]
GeoFocusは、2つのコアモジュールからなる新しいフレームワークである。
GeoFocusは、主要な特殊モデルよりも4.7%の精度向上を実現している。
多様な視覚条件下でのMATHVERSEの強靭性を示す。
論文 参考訳(メタデータ) (2026-02-09T11:15:01Z) - Scalable Adaptation of 3D Geometric Foundation Models via Weak Supervision from Internet Video [76.32954467706581]
本稿では,生のビデオストリームからGEometric foundationモデルのスケーラブル適応を行うフレームワークであるSAGEを提案する。
階層的なマイニングパイプラインを使用して、ビデオをトレーニングトラジェクトリやハイブリッド監視に変換します。
実験の結果、SAGEはゼロショットの一般化を著しく向上し、チェムファー距離を20-42%削減した。
論文 参考訳(メタデータ) (2026-02-08T09:53:21Z) - Geo3DVQA: Evaluating Vision-Language Models for 3D Geospatial Reasoning from Aerial Imagery [18.7420518276348]
Geo3DVQA(Geo3DVQA)は、高度対応3次元地理空間推論における視覚言語モデル(VLM)の評価ベンチマークである。
従来のセンサーベースのフレームワークとは異なり、Geo3DVQAは標高、スカイビュー要素、ランドカバーパターンを統合する現実的なシナリオを強調している。
論文 参考訳(メタデータ) (2025-12-08T08:16:14Z) - Let Language Constrain Geometry: Vision-Language Models as Semantic and Spatial Critics for 3D Generation [34.44214123004662]
本稿では,差別化可能な意味的・空間的批判のための枠組みであるVLM3Dを提案する。
我々のコアコントリビューションは、VLMの「Yes or No log-odds」から派生した2言語による批判信号です。
VLM3Dは、VLMの豊かな言語によるセマンティクスと空間の理解を多種多様な3D生成パイプラインに注入する、原則的で一般的な経路を確立している。
論文 参考訳(メタデータ) (2025-11-18T09:05:26Z) - MoRE: 3D Visual Geometry Reconstruction Meets Mixture-of-Experts [50.37005070020306]
MoREは、Mixture-of-Experts (MoE)アーキテクチャに基づいた、密集した3Dビジュアル基盤モデルである。
MoREは、幾何推定を安定させ、洗練する信頼に基づく深度補正モジュールを組み込んでいる。
高忠実な表面正規予測のために,高密度なセマンティック特徴とグローバルな3Dバックボーン表現を統合する。
論文 参考訳(メタデータ) (2025-10-31T06:54:27Z) - Dense Semantic Matching with VGGT Prior [49.42199006453071]
本稿では,VGGTの本質的な強みを,初期の特徴段階を再利用し,後続の特徴段階を微調整し,双方向対応のための意味的頭部を追加することによって維持するアプローチを提案する。
提案手法は, 従来のベースラインよりも優れた幾何認識, 整合性, および多様体保存を実現する。
論文 参考訳(メタデータ) (2025-09-25T14:56:11Z) - Zero-shot Inexact CAD Model Alignment from a Single Image [53.37898107159792]
1つの画像から3Dシーン構造を推測する実践的なアプローチは、データベースから密に一致する3Dモデルを検索し、画像内のオブジェクトと整列させることである。
既存のメソッドは、イメージによる教師付きトレーニングとアノテーションのポーズに依存しており、オブジェクトカテゴリの狭いセットに制限されている。
ポーズアノテーションを必要とせず、未知のカテゴリに一般化する不正確な3次元モデルの弱い教師付き9-DoFアライメント法を提案する。
論文 参考訳(メタデータ) (2025-07-04T04:46:59Z) - Topology-Aware 3D Gaussian Splatting: Leveraging Persistent Homology for Optimized Structural Integrity [3.792470553976718]
本研究はトポロジーを意識した3次元ガウス散乱(トポロジー-GS)を紹介する。
トポロジー-GSは、不完全な初期幾何学的カバレッジのためにピクセルレベルの構造的整合性を損なう。
3つの新しいビューベンチマーク実験により、PSNR、SSIM、LPIPSの指標で、Topology-GSが既存の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-12-21T13:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。