論文の概要: The 1st Solution for MOSEv1 Challenge on LSVOS 2025: CGFSeg
- arxiv url: http://arxiv.org/abs/2509.25738v1
- Date: Tue, 30 Sep 2025 03:50:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.005965
- Title: The 1st Solution for MOSEv1 Challenge on LSVOS 2025: CGFSeg
- Title(参考訳): LSVOS 2025におけるMOSEv1チャレンジの第一の解決策:CGFSeg
- Authors: Tingmin Li, Yixuan Li, Yang Yang,
- Abstract要約: Video Object(VOS)は、ビデオシーケンス全体にわたって特定のオブジェクトを追跡し、セグメンテーションすることを目的としている。
本稿では,MOSEv1チャレンジにおけるVOSタスクに対する信頼性誘導核融合抽出法(CGFSeg)を提案する。
LSVOS 2025のMOSEv1チャレンジでは,テストセットで86.37%のJ&Fスコアを達成した。
- 参考スコア(独自算出の注目度): 19.13013862040698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Object Segmentation (VOS) aims to track and segment specific objects across entire video sequences, yet it remains highly challenging under complex real-world scenarios. The MOSEv1 and LVOS dataset, adopted in the MOSEv1 challenge on LSVOS 2025, which is specifically designed to enhance the robustness of VOS models in complex real-world scenarios, including long-term object disappearances and reappearances, as well as the presence of small and inconspicuous objects. In this paper, we present our improved method, Confidence-Guided Fusion Segmentation (CGFSeg), for the VOS task in the MOSEv1 Challenge. During training, the feature extractor of SAM2 is frozen, while the remaining components are fine-tuned to preserve strong feature extraction ability and improve segmentation accuracy. In the inference stage, we introduce a pixel-check strategy that progressively refines predictions by exploiting complementary strengths of multiple models, thereby yielding robust final masks. As a result, our method achieves a J&F score of 86.37% on the test set, ranking 1st in the MOSEv1 Challenge at LSVOS 2025. These results highlight the effectiveness of our approach in addressing the challenges of VOS task in complex scenarios.
- Abstract(参考訳): Video Object Segmentation (VOS)は、ビデオシーケンス全体にわたって特定のオブジェクトを追跡し、セグメンテーションすることを目的としている。
MOSEv1とLVOSデータセットは、LSVOS 2025のMOSEv1チャレンジで採用され、長期的なオブジェクトの消失と再出現を含む複雑な現実のシナリオにおけるVOSモデルの堅牢性を高めるために特別に設計された。
本稿では,MOSEv1チャレンジにおけるVOSタスクのための改良された信頼誘導核融合セグメンテーション(CGFSeg)を提案する。
訓練中、SAM2の特徴抽出器は凍結され、残りの成分は、強力な特徴抽出能力を保ち、セグメンテーション精度を向上させるために微調整される。
推論段階では、複数のモデルの相補的な強度を利用して予測を段階的に洗練し、堅牢な最終マスクを生成するピクセルチェック戦略を導入する。
その結果,テストセット上でのJ&Fスコアは86.37%となり,LSVOS 2025のMOSEv1チャレンジで1位となった。
これらの結果は、複雑なシナリオにおけるVOSタスクの課題に対処する上で、我々のアプローチの有効性を強調している。
関連論文リスト
- 2nd Place Report of MOSEv2 Challenge 2025: Concept Guided Video Object Segmentation via SeC [46.76209037655681]
セミ教師付きビデオオブジェクトは、指定されたターゲットを1フレームのマスクでビデオシーケンスを通してセグメントすることを目的としている。
SeCフレームワークはより永続的なセグメンテーションのためにオブジェクトの深いセマンティック理解を確立した。
SeCはテストセットで39.7 JFnを獲得し、第7回大規模ビデオオブジェクトチャレンジの複合VOSトラックで2位にランクインした。
論文 参考訳(メタデータ) (2025-09-28T12:26:03Z) - The 1st Solution for MOSEv2 Challenge 2025: Long-term and Concept-aware Video Segmentation via SeC [59.53390730730018]
ソリューションはテストセットで39.89%のJFスコアを獲得し、LSVOSチャレンジのMOSEv2トラックで1位となった。
論文 参考訳(メタデータ) (2025-09-23T15:58:13Z) - SAMSON: 3rd Place Solution of LSVOS 2025 VOS Challenge [9.131199997701282]
大規模なビデオオブジェクトモジュール(LSVOS)は、長いビデオシーケンスにおけるオブジェクトの正確な追跡とセグメンテーションという課題に対処する。
テストセットリーダーボードにおけるJ&Fの最終的な性能は0.8427であった。
論文 参考訳(メタデータ) (2025-09-22T08:30:34Z) - MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes [131.45528437023643]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオ全体を通して特定のターゲットオブジェクトをセグメンテーションすることを目的としている。
このギャップを埋めるために、複雑なシーンでのVOS研究を促進するために、coMplex video Object SEgmentationデータセットが導入された。
このMOSEv2は,実環境下でのVOS手法をさらに発展させるために設計された,はるかに難しいデータセットである。
論文 参考訳(メタデータ) (2025-08-07T17:59:27Z) - Discriminative Spatial-Semantic VOS Solution: 1st Place Solution for 6th LSVOS [68.47681139026666]
ビデオオブジェクトセグメンテーション(VOS)はコンピュータビジョンにおいて重要な課題である。
現在のVOS法は複雑なシーンと長い物体の動きに苦しむ。
本報告では,空間時空間VOSモデルについて述べる。
論文 参考訳(メタデータ) (2024-08-29T10:47:17Z) - LSVOS Challenge 3rd Place Report: SAM2 and Cutie based VOS [25.894649323139987]
我々は、これらの課題に対処するために、最先端(SOTA)モデルSAM2とCutieの長所を組み合わせる。
LSVOS チャレンジ VOS トラックの試験段階での J&F スコアは 0.7952 に達し, 総合3位となった。
論文 参考訳(メタデータ) (2024-08-20T00:45:13Z) - 3rd Place Solution for MOSE Track in CVPR 2024 PVUW workshop: Complex Video Object Segmentation [63.199793919573295]
ビデオオブジェクト(VOS)はコンピュータビジョンにおいて重要なタスクであり、ビデオフレーム間の背景から前景オブジェクトを区別することに焦点を当てている。
我々の研究はCutieモデルからインスピレーションを得ており、オブジェクトメモリ、メモリフレームの総数、および入力解像度がセグメンテーション性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-06T00:56:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。