論文の概要: Correspondence as Video: Test-Time Adaption on SAM2 for Reference Segmentation in the Wild
- arxiv url: http://arxiv.org/abs/2508.07759v1
- Date: Mon, 11 Aug 2025 08:42:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.014415
- Title: Correspondence as Video: Test-Time Adaption on SAM2 for Reference Segmentation in the Wild
- Title(参考訳): ビデオとしての対応:野生における参照セグメンテーションのためのSAM2の試験時間適応
- Authors: Haoran Wang, Zekun Li, Jian Zhang, Lei Qi, Yinghuan Shi,
- Abstract要約: 本稿では,参照対象画像ペア間の固有対応を擬似ビデオとして表現する手法を提案する。
この観点により、SAM2として知られるSAMの最新バージョンは、ダウンストリームタスクに軽量に適応できる。
我々はこのアプローチをSAM(CAV-SAM)のためのビデオとして対応づける。
- 参考スコア(独自算出の注目度): 38.94246183524246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision models like the Segment Anything Model (SAM) exhibit significant limitations when applied to downstream tasks in the wild. Consequently, reference segmentation, which leverages reference images and their corresponding masks to impart novel knowledge to the model, emerges as a promising new direction for adapting vision models. However, existing reference segmentation approaches predominantly rely on meta-learning, which still necessitates an extensive meta-training process and brings massive data and computational cost. In this study, we propose a novel approach by representing the inherent correspondence between reference-target image pairs as a pseudo video. This perspective allows the latest version of SAM, known as SAM2, which is equipped with interactive video object segmentation (iVOS) capabilities, to be adapted to downstream tasks in a lightweight manner. We term this approach Correspondence As Video for SAM (CAV-SAM). CAV-SAM comprises two key modules: the Diffusion-Based Semantic Transition (DBST) module employs a diffusion model to construct a semantic transformation sequence, while the Test-Time Geometric Alignment (TTGA) module aligns the geometric changes within this sequence through test-time fine-tuning. We evaluated CAVSAM on widely-used datasets, achieving segmentation performance improvements exceeding 5% over SOTA methods. Implementation is provided in the supplementary materials.
- Abstract(参考訳): Segment Anything Model (SAM)のような大規模なビジョンモデルは、野生の下流タスクに適用した場合、大きな制限が生じる。
その結果、参照画像とそれに対応するマスクを活用して新しい知識をモデルに付与する参照セグメンテーションが、ビジョンモデルに適応するための有望な新しい方向として現れる。
しかし、既存の参照セグメンテーションアプローチは主にメタラーニングに依存しており、それは依然として広範なメタトレーニングプロセスを必要とし、膨大なデータと計算コストをもたらす。
本研究では,参照対象画像ペア間の固有対応を擬似ビデオとして表現する手法を提案する。
この観点により、SAM2として知られるSAMの最新バージョンは、インタラクティブなビデオオブジェクトセグメンテーション(iVOS)機能を備えており、ダウンストリームタスクに軽量に適応することができる。
CAV-SAM(Cor correspondingence as Video for SAM)と呼ぶ。
CAV-SAMは2つの重要なモジュールから構成される: 拡散ベースセマンティックトランジション(DBST)モジュールは、意味変換シーケンスを構築するために拡散モデルを使用し、テスト時間幾何アライメント(TTGA)モジュールはこのシーケンス内の幾何学的変化をテスト時間微調整によって整列する。
我々は,広く使用されているデータセット上でCAVSAMを評価し,SOTA法に比べてセグメンテーション性能が5%以上向上した。
補充材料に実装が提供される。
関連論文リスト
- DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency [91.30252180093333]
In-context segmentation に SAM と SAM2 を適応させるプロンプトチューニングに基づく Dual Consistency SAM (DCSAM) 法を提案する。
我々の重要な洞察は、高品質な視覚的プロンプトを提供することにより、SAMのセグメンテーションにおけるプロンプトエンコーダの機能を強化することである。
提案したDC-SAMは主に画像用に設計されているが、SAM2のサポートによりビデオ領域にシームレスに拡張できる。
論文 参考訳(メタデータ) (2025-04-16T13:41:59Z) - Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。
第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。
これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文 参考訳(メタデータ) (2024-04-18T17:59:53Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。