論文の概要: Dense Semantic Matching with VGGT Prior
- arxiv url: http://arxiv.org/abs/2509.21263v1
- Date: Thu, 25 Sep 2025 14:56:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:13.001583
- Title: Dense Semantic Matching with VGGT Prior
- Title(参考訳): VGGT以前のDense Semantic Matching
- Authors: Songlin Yang, Tianyi Wei, Yushi Lan, Zeqi Xiao, Anyi Rao, Xingang Pan,
- Abstract要約: 本稿では,VGGTの本質的な強みを,初期の特徴段階を再利用し,後続の特徴段階を微調整し,双方向対応のための意味的頭部を追加することによって維持するアプローチを提案する。
提案手法は, 従来のベースラインよりも優れた幾何認識, 整合性, および多様体保存を実現する。
- 参考スコア(独自算出の注目度): 49.42199006453071
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Semantic matching aims to establish pixel-level correspondences between instances of the same category and represents a fundamental task in computer vision. Existing approaches suffer from two limitations: (i) Geometric Ambiguity: Their reliance on 2D foundation model features (e.g., Stable Diffusion, DINO) often fails to disambiguate symmetric structures, requiring extra fine-tuning yet lacking generalization; (ii) Nearest-Neighbor Rule: Their pixel-wise matching ignores cross-image invisibility and neglects manifold preservation. These challenges call for geometry-aware pixel descriptors and holistic dense correspondence mechanisms. Inspired by recent advances in 3D geometric foundation models, we turn to VGGT, which provides geometry-grounded features and holistic dense matching capabilities well aligned with these needs. However, directly transferring VGGT is challenging, as it was originally designed for geometry matching within cross views of a single instance, misaligned with cross-instance semantic matching, and further hindered by the scarcity of dense semantic annotations. To address this, we propose an approach that (i) retains VGGT's intrinsic strengths by reusing early feature stages, fine-tuning later ones, and adding a semantic head for bidirectional correspondences; and (ii) adapts VGGT to the semantic matching scenario under data scarcity through cycle-consistent training strategy, synthetic data augmentation, and progressive training recipe with aliasing artifact mitigation. Extensive experiments demonstrate that our approach achieves superior geometry awareness, matching reliability, and manifold preservation, outperforming previous baselines.
- Abstract(参考訳): セマンティックマッチングは、同じカテゴリのインスタンス間のピクセルレベルの対応を確立することを目的としており、コンピュータビジョンにおける基本的なタスクを表している。
既存のアプローチには2つの制限がある。
(i)幾何学的曖昧性(geometric Ambiguity):その2次元基礎モデルの特徴(例えば、安定拡散、DINO)への依存は、しばしば対称構造を曖昧にせず、余分な微調整を必要とし、一般化を欠いている。
(ii)最近傍規則(Nearest-Neighbor Rule):そのピクセルワイドマッチングは横像の可視性を無視し、多様体の保存を無視する。
これらの課題は、幾何学的なピクセル記述子と全体論的密度対応機構を必要とする。
幾何学的基礎モデルの最近の進歩に触発されて、我々は、幾何学的基底を持つ特徴と、それらのニーズによく適合した全体的密マッチング能力を提供するVGGTに目を向ける。
しかしながら、VGGTを直接転送することは、元々は単一のインスタンスのクロスビュー内での幾何マッチングのために設計されており、クロスインスタンスセマンティックマッチングと不一致であり、さらに密接なセマンティックアノテーションの不足によって妨げられているため、難しい。
この問題に対処するため,我々はそのアプローチを提案する。
i)VGGTの内在的強度は、初期特徴段階を再利用し、後の特徴段階を微調整し、双方向対応のための意味的頭部を追加することにより維持する。
(II) VGGTは, 周期整合トレーニング戦略, 合成データ増強, アーティファクト緩和を緩和したプログレッシブトレーニングレシピを通じて, データ不足下でのセマンティックマッチングシナリオに適応する。
大規模な実験により,提案手法はより優れた幾何学的認識,信頼性,多様体保存を実現し,従来のベースラインよりも優れていた。
関連論文リスト
- H3R: Hybrid Multi-view Correspondence for Generalizable 3D Reconstruction [39.22287224290769]
H3Rは、潜在融合と注目に基づく機能集約を統合するハイブリッドフレームワークである。
両パラダイムを統合することで,既存手法よりも2$times$高速に収束しながら,一般化が促進される。
本手法は,ロバストなクロスデータセットの一般化を実証しながら,可変数および高分解能な入力ビューをサポートする。
論文 参考訳(メタデータ) (2025-08-05T05:56:30Z) - Geometry-Editable and Appearance-Preserving Object Compositon [67.98806888489385]
汎用オブジェクト合成(GOC)は、対象オブジェクトを望まれる幾何学的性質を持つ背景シーンにシームレスに統合することを目的としている。
近年のアプローチは意味的埋め込みを導出し、それらを高度な拡散モデルに統合し、幾何学的に編集可能な生成を可能にする。
本稿では,まずセマンティックな埋め込みを活用して,所望の幾何学的変換を暗黙的にキャプチャするDistangled Geometry-editable and Outearance-Preserving Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2025-05-27T09:05:28Z) - Hierarchical Context Alignment with Disentangled Geometric and Temporal Modeling for Semantic Occupancy Prediction [61.484280369655536]
カメラを用いた3Dセマンティック占領予測(SOP)は、限られた2次元画像観察から複雑な3Dシーンを理解するのに不可欠である。
既存のSOPメソッドは通常、占有表現学習を支援するためにコンテキストの特徴を集約する。
より正確なSOP(Hi-SOP)のための新しい階層型コンテキストアライメントパラダイムを導入する。
論文 参考訳(メタデータ) (2024-12-11T09:53:10Z) - SeMv-3D: Towards Concurrency of Semantic and Multi-view Consistency in General Text-to-3D Generation [122.47961178994456]
SeMv-3Dは、GT23D生成におけるセマンティックアライメントとマルチビュー一貫性を協調的に強化する新しいフレームワークである。
本稿では,TPL(Triplane Prior Learning)について紹介する。
我々はまた、一貫した任意のビュー合成を可能にする、三葉飛行機(SAT)における事前ベースセマンティックアライニング(Semantic Aligning)を提案する。
論文 参考訳(メタデータ) (2024-10-10T07:02:06Z) - Parallel Vertex Diffusion for Unified Visual Grounding [38.94276071029081]
統一ビジュアルグラウンドティングは、タスク固有の設計の少ないマルチタスクデータを活用するためのシンプルで汎用的な技術経路を追求する。
ほとんどの先進的な手法は、通常、検出とセグメンテーションをモデル化するためのシーケンスとしてボックスとマスクを提示する。
論文 参考訳(メタデータ) (2023-03-13T15:51:38Z) - Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。
また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-03-04T15:34:43Z) - Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。
本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。
複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文 参考訳(メタデータ) (2020-03-31T22:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。