論文の概要: Re-Prompting SAM 3 via Object Retrieval: 3rd of the 5th PVUW MOSE Track
- arxiv url: http://arxiv.org/abs/2603.23788v1
- Date: Tue, 24 Mar 2026 23:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.058546
- Title: Re-Prompting SAM 3 via Object Retrieval: 3rd of the 5th PVUW MOSE Track
- Title(参考訳): オブジェクト検索によるSAM 3の再ジャンプ:第5回PVUW MOSEトラックの第3弾
- Authors: Mingqi Gao, Sijie Li, Jungong Han,
- Abstract要約: 目標の消失と再出現下でのロバスト性を改善するための自動再飛散フレームワークを開発した。
我々のソリューションはテストセットで51.17%のJ&Fを達成し、MOSEv2トラックで3位となった。
- 参考スコア(独自算出の注目度): 51.15679610275694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical report explores the MOSEv2 track of the PVUW 2026 Challenge, which targets complex semi-supervised video object segmentation. Built on SAM~3, we develop an automatic re-prompting framework to improve robustness under target disappearance and reappearance, severe transformation, and strong same-category distractors. Our method first applies the SAM~3 detector to later frames to identify same-category object candidates, and then performs DINOv3-based object-level matching with a transformation-aware target feature pool to retrieve reliable target anchors. These anchors are injected back into the SAM~3 tracker together with the first-frame mask, enabling multi-anchor propagation rather than relying solely on the initial prompt. This simple directly benefits several core challenges of MOSEv2. Our solution achieves a J&F of 51.17% on the test set, ranking 3rd in the MOSEv2 track.
- Abstract(参考訳): この技術報告では、複雑な半教師付きビデオオブジェクトセグメンテーションをターゲットにしたPVUW 2026チャレンジのMOSEv2トラックを探索する。
SAM~3をベースとして,目標の消失と再出現,厳密な変換,強い同カテゴリの障害下でのロバスト性を改善するための自動再プロンピングフレームワークを開発した。
提案手法はまず, SAM~3検出器を後続のフレームに適用して同一カテゴリのオブジェクト候補を特定し, そしてDINOv3ベースのオブジェクトレベルマッチングと変換対応のターゲット特徴プールを併用して, 信頼性の高いターゲットアンカーを検索する。
これらのアンカーはSAM~3トラッカーに第1フレームマスクと共に注入され、初期プロンプトのみに依存するのではなく、マルチアンカーの伝搬を可能にする。
このシンプルさはMOSEv2のいくつかの中核的な課題に直結する。
我々のソリューションはテストセットで51.17%のJ&Fを達成し、MOSEv2トラックで3位となった。
関連論文リスト
- SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images [51.42466259821335]
我々は, SAM 3 をリモートセンシング OVSS タスクに適用するための予備的な検討を行った。
まず,SAM 3のセマンティックセグメンテーションヘッドとトランスフォーマーデコーダの出力を組み合わせたマスク融合戦略を実装した。
第2に、シーンに存在しないカテゴリをフィルタリングするために、プレゼンスヘッドからのプレゼンススコアを利用する。
論文 参考訳(メタデータ) (2025-12-09T15:42:28Z) - Vanish into Thin Air: Cross-prompt Universal Adversarial Attacks for SAM2 [48.71856814549096]
UAP-SAM2は,2つの意味的偏差によって駆動されるSAM2に対する最初のクロスプロンプト的普遍的敵攻撃である。
UAP-SAM2は, 最先端(SOTA)攻撃に対して, 大差で有意に優れていた。
論文 参考訳(メタデータ) (2025-10-28T08:59:11Z) - The 1st Solution for MOSEv2 Challenge 2025: Long-term and Concept-aware Video Segmentation via SeC [59.53390730730018]
ソリューションはテストセットで39.89%のJFスコアを獲得し、LSVOSチャレンジのMOSEv2トラックで1位となった。
論文 参考訳(メタデータ) (2025-09-23T15:58:13Z) - Enriched Feature Representation and Motion Prediction Module for MOSEv2 Track of 7th LSVOS Challenge: 3rd Place Solution [8.540105031750434]
そこで我々は,Cutie と SAM2 の強みを統合するフレームワークを提案する。
第7回LSVOSチャレンジのMOSEv2トラックで3位を獲得しました。
このことは、ロバストなビデオオブジェクトセグメンテーションにおけるリッチな特徴表現と動き予測の有効性を示す。
論文 参考訳(メタデータ) (2025-09-19T09:11:01Z) - MVA 2025 Small Multi-Object Tracking for Spotting Birds Challenge: Dataset, Methods, and Results [15.90859212645041]
本稿では,時間情報を利用して単一フレーム検出の限界に対処するSMOT4SBチャレンジを提案する。
211UAVビデオシーケンスと108,192のアノテートフレームからなるSMOT4SBデータセット,(2)Dot DistanceとHOTAを組み合わせた新しいメトリクスであるSO-HOTA,(3)78名の参加者と308名の応募者による競合的MVA2025チャレンジ,。
論文 参考訳(メタデータ) (2025-07-17T06:45:47Z) - Underwater Camouflaged Object Tracking Meets Vision-Language SAM2 [60.47622353256502]
本研究は,UW-COT220という大規模水中カモフラージュ型物体追跡データセットを提案する。
提案したデータセットに基づいて、本研究はまず、水中環境に挑戦するSAMとSAM2ベースのトラッカーを含む、現在の高度な視覚オブジェクト追跡手法を評価する。
本研究はSAM2よりもSAM2を改良し,水中カモフラージュ物体の複雑度を処理できることを実証した。
論文 参考訳(メタデータ) (2024-09-25T13:10:03Z) - The Instance-centric Transformer for the RVOS Track of LSVOS Challenge: 3rd Place Solution [9.282159019651433]
2つのインスタンス中心モデルを構築し、フレームレベルとインスタンスレベルの予測結果を融合する。
検証段階では52.67 J&F, 試験段階では60.36 J&F, 第6回 LSVOS Challenge RVOS Track では3位となった。
論文 参考訳(メタデータ) (2024-08-20T04:45:13Z) - Dense Scene Multiple Object Tracking with Box-Plane Matching [73.54369833671772]
マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要なタスクである。
密集したシーンにおけるMOT性能を改善するために,Box-Plane Matching (BPM)法を提案する。
3つのモジュールの有効性により、ACM MM Grand Challenge HiEve 2020において、私たちのチームはトラック1のリーダーボードで1位を獲得しました。
論文 参考訳(メタデータ) (2020-07-30T16:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。