論文の概要: SAMSON: 3rd Place Solution of LSVOS 2025 VOS Challenge
- arxiv url: http://arxiv.org/abs/2509.17500v1
- Date: Mon, 22 Sep 2025 08:30:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.298173
- Title: SAMSON: 3rd Place Solution of LSVOS 2025 VOS Challenge
- Title(参考訳): SAMSON: LSVOS 2025 VOS Challengeの第3位
- Authors: Yujie Xie, Hongyang Zhang, Zhihui Liu, Shihai Ruan,
- Abstract要約: 大規模なビデオオブジェクトモジュール(LSVOS)は、長いビデオシーケンスにおけるオブジェクトの正確な追跡とセグメンテーションという課題に対処する。
テストセットリーダーボードにおけるJ&Fの最終的な性能は0.8427であった。
- 参考スコア(独自算出の注目度): 9.131199997701282
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large-scale Video Object Segmentation (LSVOS) addresses the challenge of accurately tracking and segmenting objects in long video sequences, where difficulties stem from object reappearance, small-scale targets, heavy occlusions, and crowded scenes. Existing approaches predominantly adopt SAM2-based frameworks with various memory mechanisms for complex video mask generation. In this report, we proposed Segment Anything with Memory Strengthened Object Navigation (SAMSON), the 3rd place solution in the MOSE track of ICCV 2025, which integrates the strengths of stateof-the-art VOS models into an effective paradigm. To handle visually similar instances and long-term object disappearance in MOSE, we incorporate a long-term memorymodule for reliable object re-identification. Additionly, we adopt SAM2Long as a post-processing strategy to reduce error accumulation and enhance segmentation stability in long video sequences. Our method achieved a final performance of 0.8427 in terms of J &F in the test-set leaderboard.
- Abstract(参考訳): 大規模なビデオオブジェクトセグメンテーション(LSVOS)は、オブジェクトの再出現、小さなターゲット、重いオクルージョン、混み合ったシーンなど、長いビデオシーケンスにおけるオブジェクトの正確な追跡とセグメンテーションの課題に対処する。
既存のアプローチは、複雑なビデオマスク生成のための様々なメモリ機構を持つSAM2ベースのフレームワークを主に採用している。
本報告では, ICCV 2025のMOSEトラックにおいて, 3位となるSegment Anything with Memory Strengthened Object Navigation (SAMSON)を提案する。
視覚的に類似したインスタンスとMOSEにおける長期オブジェクトの消失を扱うため,信頼性の高いオブジェクト再識別のための長期メモリモジュールを組み込んだ。
さらに, SAM2Longを後処理戦略として採用し, 誤りの蓄積を低減し, 長いビデオシーケンスのセグメンテーション安定性を向上させる。
テストセットリーダーボードにおけるJ&Fの最終的な性能は0.8427であった。
関連論文リスト
- Enriched Feature Representation and Motion Prediction Module for MOSEv2 Track of 7th LSVOS Challenge: 3rd Place Solution [8.540105031750434]
そこで我々は,Cutie と SAM2 の強みを統合するフレームワークを提案する。
第7回LSVOSチャレンジのMOSEv2トラックで3位を獲得しました。
このことは、ロバストなビデオオブジェクトセグメンテーションにおけるリッチな特徴表現と動き予測の有効性を示す。
論文 参考訳(メタデータ) (2025-09-19T09:11:01Z) - HQ-SMem: Video Segmentation and Tracking Using Memory Efficient Object Embedding With Selective Update and Self-Supervised Distillation Feedback [0.0]
本稿では,高画質ビデオセグメンテーションとスマートメモリを用いたトラッキングのためのHQ-SMemを紹介する。
提案手法には, SAMと高品質マスク(SAM-HQ)を併用して, 粗いセグメンテーションマスクを改良し, オブジェクト境界を改良する, (ii) 冗長なキーフレームを廃棄しながら, 関連キーフレームを選択的に格納する動的スマートメモリ機構を実装し, (iii) 複雑なトポロジ的オブジェクトの変動を効果的に処理し, ビデオ全体のドリフトを低減するための外観モデルを動的に更新する,という3つの重要なイノベーションが含まれている。
論文 参考訳(メタデータ) (2025-07-25T03:28:05Z) - MoSAM: Motion-Guided Segment Anything Model with Spatial-Temporal Memory Selection [21.22536962888316]
モデルにオブジェクトモーションキューを統合し、より信頼性の高い特徴記憶を確立するための2つの重要な戦略を組み込んだMoSAMを提案する。
MoSAMは、他の競合と比べて最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-04-30T02:19:31Z) - SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree [79.26409013413003]
SAM2Longは、トレーニング不要のビデオオブジェクトセグメンテーションを改良した手法である。
各フレーム内のセグメンテーションの不確実性を考慮し、複数のセグメンテーション経路からビデオレベルの最適結果を選択する。
SAM2Longは、24の頭対頭比較で平均3.0点の改善を実現している。
論文 参考訳(メタデータ) (2024-10-21T17:59:19Z) - 3rd Place Solution for MOSE Track in CVPR 2024 PVUW workshop: Complex Video Object Segmentation [63.199793919573295]
ビデオオブジェクト(VOS)はコンピュータビジョンにおいて重要なタスクであり、ビデオフレーム間の背景から前景オブジェクトを区別することに焦点を当てている。
我々の研究はCutieモデルからインスピレーションを得ており、オブジェクトメモリ、メモリフレームの総数、および入力解像度がセグメンテーション性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-06T00:56:25Z) - MOSE: A New Dataset for Video Object Segmentation in Complex Scenes [106.64327718262764]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオクリップシーケンス全体を通して特定のオブジェクトをセグメンテーションすることを目的としている。
最先端のVOSメソッドは、既存のデータセット上で優れたパフォーマンス(例えば、90%以上のJ&F)を達成した。
我々は、複雑な環境でのトラッキングとセグメンテーションを研究するために、coMplex video Object SEgmentation (MOSE)と呼ばれる新しいVOSデータセットを収集する。
論文 参考訳(メタデータ) (2023-02-03T17:20:03Z) - Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。
AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。
当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文 参考訳(メタデータ) (2022-03-22T03:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。