論文の概要: Pseudo-Label Enhanced Cascaded Framework: 2nd Technical Report for LSVOS 2025 VOS Track
- arxiv url: http://arxiv.org/abs/2509.14901v1
- Date: Thu, 18 Sep 2025 12:23:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.211848
- Title: Pseudo-Label Enhanced Cascaded Framework: 2nd Technical Report for LSVOS 2025 VOS Track
- Title(参考訳): Pseudo-Label拡張カスケードフレームワーク: LSVOS 2025 VOSトラックの2回目の技術報告
- Authors: An Yan, Leilei Cao, Feng Lu, Ran Hong, Youhai Jiang, Fengjie Zhu,
- Abstract要約: 複雑なビデオオブジェクト(VOS)は、フレーム間でオブジェクトを正確にセグメンテーションする上で重要な課題である。
SAM2 フレームワークに基づく LSVOS 2025 VOS Track のソリューションを提案する。
私たちはMOSEテストセットで0.8616のJ&Fスコア(SAM2Longベースラインで+1.4ポイント)を獲得し、LSVOS 2025 VOSトラックで2位を確保しました。
- 参考スコア(独自算出の注目度): 11.068687286561177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Complex Video Object Segmentation (VOS) presents significant challenges in accurately segmenting objects across frames, especially in the presence of small and similar targets, frequent occlusions, rapid motion, and complex interactions. In this report, we present our solution for the LSVOS 2025 VOS Track based on the SAM2 framework. We adopt a pseudo-labeling strategy during training: a trained SAM2 checkpoint is deployed within the SAM2Long framework to generate pseudo labels for the MOSE test set, which are then combined with existing data for further training. For inference, the SAM2Long framework is employed to obtain our primary segmentation results, while an open-source SeC model runs in parallel to produce complementary predictions. A cascaded decision mechanism dynamically integrates outputs from both models, exploiting the temporal stability of SAM2Long and the concept-level robustness of SeC. Benefiting from pseudo-label training and cascaded multi-model inference, our approach achieves a J\&F score of 0.8616 on the MOSE test set -- +1.4 points over our SAM2Long baseline -- securing the 2nd place in the LSVOS 2025 VOS Track, and demonstrating strong robustness and accuracy in long, complex video segmentation scenarios.
- Abstract(参考訳): 複雑なビデオオブジェクトセグメンテーション(VOS)は、特に小さく類似したターゲット、頻繁なオクルージョン、素早い動き、複雑な相互作用の存在下で、フレーム間でオブジェクトを正確にセグメンテーションする上で重要な課題を提示する。
本稿では,SAM2 フレームワークに基づく LSVOS 2025 VOS Track のソリューションを提案する。
SAM2Longフレームワーク内にトレーニングされたSAM2チェックポイントを配置し、MOSEテストセットの擬似ラベルを生成し、既存のデータと組み合わせてさらなるトレーニングを行う。
推論にはSAM2Longフレームワークを用いて一次セグメンテーション結果を得るとともに,オープンソースのSeCモデルを並列に実行して補完的な予測を行う。
ケースケード決定機構は、SAM2Longの時間的安定性とSeCの概念レベルの堅牢性を利用して、両方のモデルからの出力を動的に統合する。
LSVOS 2025 VOSトラックの2位を確保し、長い複雑なビデオセグメンテーションシナリオにおいて強い堅牢性と精度を示す。
関連論文リスト
- Seg2Track-SAM2: SAM2-based Multi-object Tracking and Segmentation for Zero-shot Generalization [3.108551551357326]
Seg2Track-SAM2は、事前訓練されたオブジェクト検出器とSAM2と新しいSeg2Trackモジュールを統合するフレームワークである。
Seg2Track-SAM2は最先端(SOTA)のパフォーマンスを達成し、KITTI MOTSでは車と歩行者の両方で総合4位にランクインした。
結果、Seg2Track-SAM2は、堅牢なゼロショットトラッキング、強化されたアイデンティティ保存、効率的なメモリ利用を組み合わせることで、MOTSの進歩を確認した。
論文 参考訳(メタデータ) (2025-09-15T10:52:27Z) - SAM2-UNeXT: An Improved High-Resolution Baseline for Adapting Foundation Models to Downstream Segmentation Tasks [50.97089872043121]
SAM2-UNeXTはSAM2-UNetの中核となる原理を基盤とした高度なフレームワークである。
我々は、補助的なDINOv2エンコーダの統合によりSAM2の表現能力を拡張する。
我々のアプローチは、単純なアーキテクチャでより正確なセグメンテーションを可能にし、複雑なデコーダ設計の必要性を緩和する。
論文 参考訳(メタデータ) (2025-08-05T15:36:13Z) - SAM2MOT: A Novel Paradigm of Multi-Object Tracking by Segmentation [11.1906749425206]
Segment Anything 2 (SAM2)は、セグメンテーションを使った堅牢な単一オブジェクト追跡を可能にする。
本稿では,多目的追跡のための新しいトラッキング・バイ・パラダイムであるSAM2MOTを提案する。
SAM2MOTはセグメンテーションマスクから直接トラッキングボックスを生成し、検出精度への依存を減らす。
論文 参考訳(メタデータ) (2025-04-06T15:32:08Z) - Det-SAM2:Technical Report on the Self-Prompting Segmentation Framework Based on Segment Anything Model 2 [0.0]
本報告では,Det-SAM2フレームワーク全体の構築と,SAM2に適用されたその後の工学的最適化について述べる。
我々は,Det-SAM2フレームワーク上に構築されたアプリケーションを実演する事例を提示する: ビジネスコンテキストから派生したビリヤードシナリオにおけるAIレファリング。
論文 参考訳(メタデータ) (2024-11-28T07:58:30Z) - Underwater Camouflaged Object Tracking Meets Vision-Language SAM2 [60.47622353256502]
本研究は,UW-COT220という大規模水中カモフラージュ型物体追跡データセットを提案する。
提案したデータセットに基づいて、本研究はまず、水中環境に挑戦するSAMとSAM2ベースのトラッカーを含む、現在の高度な視覚オブジェクト追跡手法を評価する。
本研究はSAM2よりもSAM2を改良し,水中カモフラージュ物体の複雑度を処理できることを実証した。
論文 参考訳(メタデータ) (2024-09-25T13:10:03Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - The 2nd Solution for LSVOS Challenge RVOS Track: Spatial-temporal Refinement for Consistent Semantic Segmentation [0.0]
本稿では,参照対象セグメンテーションモデルの時間的一貫性を高める手法を提案する。
提案手法は,ECCV 2024 LSVOS ChallengeにおいてRVOSトラックの最終ランキングで2位となった。
論文 参考訳(メタデータ) (2024-08-22T14:43:02Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。