論文の概要: Enriched Feature Representation and Motion Prediction Module for MOSEv2 Track of 7th LSVOS Challenge: 3rd Place Solution
- arxiv url: http://arxiv.org/abs/2509.15781v1
- Date: Fri, 19 Sep 2025 09:11:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.092314
- Title: Enriched Feature Representation and Motion Prediction Module for MOSEv2 Track of 7th LSVOS Challenge: 3rd Place Solution
- Title(参考訳): 第7回LSVOSチャレンジのMOSEv2トラックにおける高機能表現と動き予測モジュール:第3位解
- Authors: Chang Soo Lim, Joonyoung Moon, Donghyeon Cho,
- Abstract要約: そこで我々は,Cutie と SAM2 の強みを統合するフレームワークを提案する。
第7回LSVOSチャレンジのMOSEv2トラックで3位を獲得しました。
このことは、ロバストなビデオオブジェクトセグメンテーションにおけるリッチな特徴表現と動き予測の有効性を示す。
- 参考スコア(独自算出の注目度): 8.540105031750434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video object segmentation (VOS) is a challenging task with wide applications such as video editing and autonomous driving. While Cutie provides strong query-based segmentation and SAM2 offers enriched representations via a pretrained ViT encoder, each has limitations in feature capacity and temporal modeling. In this report, we propose a framework that integrates their complementary strengths by replacing the encoder of Cutie with the ViT encoder of SAM2 and introducing a motion prediction module for temporal stability. We further adopt an ensemble strategy combining Cutie, SAM2, and our variant, achieving 3rd place in the MOSEv2 track of the 7th LSVOS Challenge. We refer to our final model as SCOPE (SAM2-CUTIE Object Prediction Ensemble). This demonstrates the effectiveness of enriched feature representation and motion prediction for robust video object segmentation. The code is available at https://github.com/2025-LSVOS-3rd-place/MOSEv2_3rd_place.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(VOS)は、ビデオ編集や自律運転といった幅広いアプリケーションにおいて難しい課題である。
Cutieは強力なクエリベースのセグメンテーションを提供し、SAM2はトレーニング済みのViTエンコーダを介してリッチな表現を提供する。
本稿では,Cutie のエンコーダを SAM2 の ViT エンコーダに置き換え,時間的安定のための動き予測モジュールを導入することで,それらの相補的な強みを統合するフレームワークを提案する。
第7回SVOSチャレンジのMOSEv2トラックで3位を獲得し,Cutie,SAM2,および我々の変種を組み合わせたアンサンブル戦略を採用する。
最終モデルはSCOPE (SAM2-CUTIE Object Prediction Ensemble) と呼ぶ。
このことは、ロバストなビデオオブジェクトセグメンテーションにおけるリッチな特徴表現と動き予測の有効性を示す。
コードはhttps://github.com/2025-LSVOS-3rd-place/MOSEv2_3rd_placeで公開されている。
関連論文リスト
- SAM2-UNeXT: An Improved High-Resolution Baseline for Adapting Foundation Models to Downstream Segmentation Tasks [50.97089872043121]
SAM2-UNeXTはSAM2-UNetの中核となる原理を基盤とした高度なフレームワークである。
我々は、補助的なDINOv2エンコーダの統合によりSAM2の表現能力を拡張する。
我々のアプローチは、単純なアーキテクチャでより正確なセグメンテーションを可能にし、複雑なデコーダ設計の必要性を緩和する。
論文 参考訳(メタデータ) (2025-08-05T15:36:13Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - 4th PVUW MeViS 3rd Place Report: Sa2VA [105.88675577642204]
より強力なMLLM上でのテスト時間推定法を簡易に修正することで,MeVISのより強力な結果が得られることを示す。
特に,画像とビデオの密接な理解のための統一モデルである,最近のSa2VAを採用する。
論文 参考訳(メタデータ) (2025-04-01T07:06:47Z) - CamSAM2: Segment Anything Accurately in Camouflaged Videos [37.0152845263844]
本研究では,Camouflaged SAM2 (CamSAM2) を提案する。
現在のフレームと以前のフレームの細粒度と高解像度機能をフル活用するために,暗黙的オブジェクト認識融合 (IOF) と明示的オブジェクト認識融合 (EOF) モジュールを提案する。
CamSAM2はSAM2に無視可能な学習可能なパラメータのみを追加するが、3つのVCOSデータセットでSAM2を大幅に上回っている。
論文 参考訳(メタデータ) (2025-03-25T14:58:52Z) - Video Object Segmentation via SAM 2: The 4th Solution for LSVOS Challenge VOS Track [28.52754012142431]
Segment Anything Model 2 (SAM2) は、画像やビデオにおける迅速な視覚的セグメンテーションを解決するための基礎モデルである。
SAM 2は、ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集している。
訓練セットを微調整することなく、SAM 2はテストセットで75.79 J&Fを獲得し、第6回LSVOSチャレンジVOSトラックでは4位となった。
論文 参考訳(メタデータ) (2024-08-19T16:13:14Z) - 3rd Place Solution for MOSE Track in CVPR 2024 PVUW workshop: Complex Video Object Segmentation [63.199793919573295]
ビデオオブジェクト(VOS)はコンピュータビジョンにおいて重要なタスクであり、ビデオフレーム間の背景から前景オブジェクトを区別することに焦点を当てている。
我々の研究はCutieモデルからインスピレーションを得ており、オブジェクトメモリ、メモリフレームの総数、および入力解像度がセグメンテーション性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-06T00:56:25Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。