論文の概要: V$^{2}$-SAM: Marrying SAM2 with Multi-Prompt Experts for Cross-View Object Correspondence
- arxiv url: http://arxiv.org/abs/2511.20886v1
- Date: Tue, 25 Nov 2025 22:06:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.878107
- Title: V$^{2}$-SAM: Marrying SAM2 with Multi-Prompt Experts for Cross-View Object Correspondence
- Title(参考訳): V$^{2}$-SAM:Multi-Prompt Expertsを使ったSAM2のクロスビューオブジェクト対応
- Authors: Jiancheng Pan, Runze Wang, Tianwen Qian, Mohammad Mahdi, Yanwei Fu, Xiangyang Xue, Xiaomeng Huang, Luc Van Gool, Danda Pani Paudel, Yuqian Fu,
- Abstract要約: V2-SAMは、統合されたクロスビューオブジェクト対応フレームワークである。
SAM2は2つの相補的なプロンプトジェネレータを通して、シングルビューセグメンテーションからクロスビュー対応に適応する。
V2-SAMは、Ego-Exo4D(ego-exoオブジェクト対応)、DAVIS-2017(ビデオオブジェクト追跡)、HANDAL-X(robotic-ready cross-view対応)の新たな最先端性能を実現する
- 参考スコア(独自算出の注目度): 90.92892171307055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view object correspondence, exemplified by the representative task of ego-exo object correspondence, aims to establish consistent associations of the same object across different viewpoints (e.g., ego-centric and exo-centric). This task poses significant challenges due to drastic viewpoint and appearance variations, making existing segmentation models, such as SAM2, non-trivial to apply directly. To address this, we present V^2-SAM, a unified cross-view object correspondence framework that adapts SAM2 from single-view segmentation to cross-view correspondence through two complementary prompt generators. Specifically, the Cross-View Anchor Prompt Generator (V^2-Anchor), built upon DINOv3 features, establishes geometry-aware correspondences and, for the first time, unlocks coordinate-based prompting for SAM2 in cross-view scenarios, while the Cross-View Visual Prompt Generator (V^2-Visual) enhances appearance-guided cues via a novel visual prompt matcher that aligns ego-exo representations from both feature and structural perspectives. To effectively exploit the strengths of both prompts, we further adopt a multi-expert design and introduce a Post-hoc Cyclic Consistency Selector (PCCS) that adaptively selects the most reliable expert based on cyclic consistency. Extensive experiments validate the effectiveness of V^2-SAM, achieving new state-of-the-art performance on Ego-Exo4D (ego-exo object correspondence), DAVIS-2017 (video object tracking), and HANDAL-X (robotic-ready cross-view correspondence).
- Abstract(参考訳): Ego-exoオブジェクト対応の代表的なタスクによって実証されたクロスビューオブジェクト対応は、異なる視点(例えば、ego-centricおよびexo-centric)で同じオブジェクトの一貫性のある関連を確立することを目的としている。
このタスクは、SAM2のような既存のセグメンテーションモデルを直接適用することは自明ではないため、劇的な視点と外観のバリエーションによって大きな課題を生じさせる。
そこで本研究では,SAM2を単一ビューセグメント化から2つの補完的なプロンプト生成器によるクロスビュー対応に適応させる,一貫したクロスビューオブジェクト対応フレームワークであるV^2-SAMを提案する。
具体的には、DINOv3機能をベースに構築されたクロスビューアンカー・プロンプト・ジェネレータ(V^2-Anchor)は、幾何学的対応を確立し、初めて、クロスビューシナリオにおけるSAM2の座標ベースのプロンプトをアンロックする一方、クロスビュービジュアル・プロンプト・ジェネレータ(V^2-Visual)は、特徴と構造の両方の観点からエゴエクソ表現を整列する新しい視覚プロンプト・マターを介して外観誘導のキューを強化する。
両プロンプトの強度を効果的に活用するために,マルチエキスパート設計を採用し,循環整合性に基づいて最も信頼性の高い専門家を適応的に選択するポストホックサイクル整合セレクタ(PCCS)を導入する。
Ego-Exo4D(ego-exoオブジェクト対応)、DAVIS-2017(ビデオオブジェクト追跡)、HANDAL-X(robotic-ready cross-view対応)に対して、V^2-SAMの有効性を検証する。
関連論文リスト
- Robust Ego-Exo Correspondence with Long-Term Memory [34.992180181705]
我々は,エゴセントリックな視点とエゴセントリックな視点のオブジェクトレベル対応を確立するための新しい枠組みを提案する。
提案手法は,Mixture-of-Experts (MoE) にインスパイアされた,デュアルメモリアーキテクチャと適応型機能ルーティングモジュールを備える。
挑戦的なEgoExo4Dベンチマークの実験では、LM-EECと呼ばれる手法により、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2025-10-13T13:54:12Z) - Cross-View Multi-Modal Segmentation @ Ego-Exo4D Challenges 2025 [93.36604217487526]
ある視点からオブジェクトクエリーが与えられた場合、ゴールは別の視点で対応するオブジェクトマスクを予測することである。
この課題に対処するために,オブジェクトのローカライゼーションを強化するマルチモーダル条件融合モジュールを提案する。
提案手法は,大規模Ego-Exo4Dオブジェクト対応ベンチマークにおいて,第2位にランクインした。
論文 参考訳(メタデータ) (2025-06-06T08:23:39Z) - ZISVFM: Zero-Shot Object Instance Segmentation in Indoor Robotic Environments with Vision Foundation Models [10.858627659431928]
サービスロボットは、機能を強化するために、未知のオブジェクトを効果的に認識し、セグメント化する必要がある。
従来の教師付き学習ベースのセグメンテーション技術は、広範な注釈付きデータセットを必要とする。
本稿では,セグメンテーションアプライスモデル (SAM) の強力なゼロショット能力と,自己監督型視覚変換器 (ViT) からの明示的な視覚表現を活用することで,UOISを解く新しいアプローチ (ZISVFM) を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:22:20Z) - ObjectRelator: Enabling Cross-View Object Relation Understanding Across Ego-Centric and Exo-Centric Perspectives [109.11714588441511]
Ego-Exoオブジェクト対応タスクは,セグメンテーションを通じて,ego-Exoパースペクティブ間のオブジェクト関係を理解することを目的としている。
最近提案されたセグメンテーション手法であるPSALMは、このタスクでデモされたゼロショット能力を例外として挙げている。
我々は、マルチモーダルコンディションフュージョンとSSLベースのクロスビューオブジェクトアライメントという、2つの重要なモジュールを特徴とする新しいアプローチであるObjectRelatorを提案する。
論文 参考訳(メタデータ) (2024-11-28T12:01:03Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。
AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。
当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文 参考訳(メタデータ) (2022-03-22T03:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。