論文の概要: VGGT-Segmentor: Geometry-Enhanced Cross-View Segmentation
- arxiv url: http://arxiv.org/abs/2604.13596v2
- Date: Thu, 16 Apr 2026 00:59:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 16:09:14.198647
- Title: VGGT-Segmentor: Geometry-Enhanced Cross-View Segmentation
- Title(参考訳): VGGTセグメンタ:幾何学的に強化されたクロスビューセグメンテーション
- Authors: Yulu Gao, Bohao Zhang, Zongheng Tang, Jitong Liao, Wenjun Wu, Si Liu,
- Abstract要約: VGGT-S(VGGT-S)は,画素精度のセマンティックセマンティックセグメンテーションを統一する幾何学的フレームワークである。
Ego-Exo4Dベンチマークでは、VGGT-Sは、それぞれEgo to ExoとExo to Egoタスクの平均IoUを67.7%、平均IoUを68.0%と定義している。
- 参考スコア(独自算出の注目度): 17.578132395389755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instance-level object segmentation across disparate egocentric and exocentric views is a fundamental challenge in visual understanding, critical for applications in embodied AI and remote collaboration. This task is exceptionally difficult due to severe changes in scale, perspective, and occlusion, which destabilize direct pixel-level matching. While recent geometry-aware models like VGGT provide a strong foundation for feature alignment, we find they often fail at dense prediction tasks due to significant pixel-level projection drift, even when their internal object-level attention remains consistent. To bridge this gap, we introduce VGGT-Segmentor (VGGT-S), a framework that unifies robust geometric modeling with pixel-accurate semantic segmentation. VGGT-S leverages VGGT's powerful cross-view feature representation and introduces a novel Union Segmentation Head. This head operates in three stages: mask prompt fusion, point-guided prediction, and iterative mask refinement, effectively translating high-level feature alignment into a precise segmentation mask. Furthermore, we propose a single-image self-supervised training strategy that eliminates the need for paired annotations and enables strong generalization. On the Ego-Exo4D benchmark, VGGT-S sets a new state-of-the-art, achieving 67.7% and 68.0% average IoU for Ego to Exo and Exo to Ego tasks, respectively, significantly outperforming prior methods. Notably, our correspondence-free pretrained model surpasses most fully-supervised baselines, demonstrating the effectiveness and scalability of our approach.
- Abstract(参考訳): 異なるエゴセントリックな視点とエクソセントリックな視点にまたがるインスタンスレベルのオブジェクトセグメンテーションは、視覚的理解における根本的な課題であり、具体化されたAIやリモートコラボレーションのアプリケーションに不可欠である。
この課題は、直接ピクセルレベルのマッチングを不安定にするスケール、視点、オクルージョンの急激な変化のため、非常に難しい。
近年のVGGTのような幾何認識モデルは特徴アライメントの強力な基盤となっているが、内部のオブジェクトレベルの注意が一定である場合でも、画素レベルのプロジェクションドリフトが大きいため、高密度の予測タスクでは失敗することが多い。
このギャップを埋めるために、画素精度のセマンティックセグメンテーションでロバストな幾何学的モデリングを統一するフレームワークであるVGGT-S(VGGT-S)を導入する。
VGGT-SはVGGTの強力なクロスビュー特徴表現を活用し、新しいユニオンセグメンテーションヘッドを導入した。
このヘッドは、マスクプロンプト融合(英語版)、ポイント誘導予測(英語版)、反復マスク改善(英語版)の3段階で動作し、効果的に高レベルの特徴アライメントを正確なセグメンテーションマスクに翻訳する。
さらに、ペアアノテーションの必要性を排除し、強力な一般化を可能にする、単一イメージの自己教師型トレーニング戦略を提案する。
Ego-Exo4Dベンチマークでは、VGGT-Sは、Ego to ExoとExo to Egoタスクの平均IoUの67.7%と68.0%を達成し、新しい最先端技術を設定している。
特に、我々の通信自由事前学習モデルは、ほとんど完全に教師されたベースラインを超え、我々のアプローチの有効性とスケーラビリティを実証している。
関連論文リスト
- Towards Foundation Models for 3D Scene Understanding: Instance-Aware Self-Supervised Learning for Point Clouds [53.82500407523346]
PointINSは、幾何学的学習を通じてポイントクラウド表現を豊かにする、インスタンス指向の自己組織化フレームワークである。
PointINSは、屋内のインスタンスセグメンテーションで平均+3.5%のmAP改善、屋外のパン光学セグメンテーションで+4.1%のPQゲインを達成している。
論文 参考訳(メタデータ) (2026-03-26T08:31:06Z) - GLASS: Graph and Vision-Language Assisted Semantic Shape Correspondence [16.503835991826367]
GLASSは、幾何学的スペクトル分析と、視覚言語基礎モデルからのリッチなセマンティック先行情報を統合することでギャップを埋めるフレームワークである。
i) 強力なビジョン基盤モデルから堅牢な多視点視覚特徴抽出を可能にするビュー一貫性戦略。
クラス間ベンチマークSMALと非等尺ベンチマークSMALとTOPKIDSの平均測地誤差は0.21、4.5、および5.6であり、それぞれ0.49、6.0、8.9のURSSMベースラインからの誤差を57%、25%、および37%削減している。
論文 参考訳(メタデータ) (2026-03-08T14:33:50Z) - STVG-R1: Incentivizing Instance-Level Reasoning and Grounding in Videos via Reinforcement Learning [65.36458157092207]
視覚言語モデル(VLM)では、テキスト記述と視覚座標のミスアライメントはしばしば幻覚を引き起こす。
本稿では,座標の調整が難しい問題を回避するために,新しい視覚的プロンプトパラダイムを提案する。
本稿では,STVGの最初の強化学習フレームワークであるSTVG-R1を紹介する。
論文 参考訳(メタデータ) (2026-02-12T08:53:32Z) - GPA-VGGT:Adapting VGGT to Large Scale Localization by Self-Supervised Learning with Geometry and Physics Aware Loss [15.633839321933385]
近年のVisual Geometry Grounded Transformer (VGGT) モデルの進歩は、カメラのポーズ推定と3次元再構成において大きな可能性を秘めている。
これらのモデルは通常、トレーニングのために真実のラベルを頼りにしており、ラベルのない、目に見えないシーンに適応する際の課題を提起している。
本稿では,VGGTをラベルのないデータで訓練する自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-23T16:46:59Z) - MVGGT: Multimodal Visual Geometry Grounded Transformer for Multiview 3D Referring Expression Segmentation [59.75554954111619]
マルチビュー3D参照表現(MV-3DRES)を導入し、モデルがシーン構造を復元し、参照対象をスパースなマルチビュー画像から直接セグメント化する必要がある。
本稿では,言語情報をスパースビュー幾何学的推論に組み込む,効率的なエンドツーエンドフレームワークであるMultimodal Visual Geometry Grounded Transformer (MVGGT)を提案する。
実験により、MVGGTは最初の強力なベースラインを確立し、高精度かつ高速な推論を達成し、既存の選択肢よりも優れていることが示された。
論文 参考訳(メタデータ) (2026-01-11T11:44:07Z) - Dense Semantic Matching with VGGT Prior [49.42199006453071]
本稿では,VGGTの本質的な強みを,初期の特徴段階を再利用し,後続の特徴段階を微調整し,双方向対応のための意味的頭部を追加することによって維持するアプローチを提案する。
提案手法は, 従来のベースラインよりも優れた幾何認識, 整合性, および多様体保存を実現する。
論文 参考訳(メタデータ) (2025-09-25T14:56:11Z) - Faster VGGT with Block-Sparse Global Attention [11.473406315508647]
本稿では,高度に最適化されたブロックスパースカーネルに基づくグローバルアテンション操作の置き換えを提案する。
バックボーンの再トレーニングは不要で、VGGTと$pi3$の両方に拡張され、大きなイメージコレクションをサポートします。
論文 参考訳(メタデータ) (2025-09-08T18:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。