論文の概要: 2nd Place Report of MOSEv2 Challenge 2025: Concept Guided Video Object Segmentation via SeC
- arxiv url: http://arxiv.org/abs/2509.23838v1
- Date: Sun, 28 Sep 2025 12:26:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.479947
- Title: 2nd Place Report of MOSEv2 Challenge 2025: Concept Guided Video Object Segmentation via SeC
- Title(参考訳): 第2回MOSEv2 Challenge 2025: Concept Guided Video Object Segmentation via SeC
- Authors: Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Jiaqi Wang,
- Abstract要約: セミ教師付きビデオオブジェクトは、指定されたターゲットを1フレームのマスクでビデオシーケンスを通してセグメントすることを目的としている。
SeCフレームワークはより永続的なセグメンテーションのためにオブジェクトの深いセマンティック理解を確立した。
SeCはテストセットで39.7 JFnを獲得し、第7回大規模ビデオオブジェクトチャレンジの複合VOSトラックで2位にランクインした。
- 参考スコア(独自算出の注目度): 46.76209037655681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-supervised Video Object Segmentation aims to segment a specified target throughout a video sequence, initialized by a first-frame mask. Previous methods rely heavily on appearance-based pattern matching and thus exhibit limited robustness against challenges such as drastic visual changes, occlusions, and scene shifts. This failure is often attributed to a lack of high-level conceptual understanding of the target. The recently proposed Segment Concept (SeC) framework mitigated this limitation by using a Large Vision-Language Model (LVLM) to establish a deep semantic understanding of the object for more persistent segmentation. In this work, we evaluate its zero-shot performance on the challenging coMplex video Object SEgmentation v2 (MOSEv2) dataset. Without any fine-tuning on the training set, SeC achieved 39.7 \JFn on the test set and ranked 2nd place in the Complex VOS track of the 7th Large-scale Video Object Segmentation Challenge.
- Abstract(参考訳): 半教師付きビデオオブジェクトセグメンテーションは、第一フレームマスクによって初期化され、ビデオシーケンスを通して指定されたターゲットをセグメンテーションすることを目的としている。
従来の手法は外観に基づくパターンマッチングに大きく依存しており、劇的な視覚的変化、オクルージョン、シーンシフトといった課題に対して限られた堅牢性を示す。
この失敗は、しばしば目標に対する高レベルの概念的理解の欠如に起因する。
最近提案されたセグメンション概念(SeC)フレームワークは、より永続的なセグメンテーションのためのオブジェクトの深いセグメンテーション理解を確立するために、LVLM(Large Vision-Language Model)を使用して、この制限を緩和した。
本研究では,そのゼロショット性能を,挑戦的なコモプレックスビデオObject SEgmentation v2(MOSEv2)データセット上で評価する。
トレーニングセットを微調整することなく、SeCはテストセットで39.7 \JFnを獲得し、第7回大規模ビデオオブジェクトセグメンテーションチャレンジの複合VOSトラックで2位となった。
関連論文リスト
- SAMSON: 3rd Place Solution of LSVOS 2025 VOS Challenge [9.131199997701282]
大規模なビデオオブジェクトモジュール(LSVOS)は、長いビデオシーケンスにおけるオブジェクトの正確な追跡とセグメンテーションという課題に対処する。
テストセットリーダーボードにおけるJ&Fの最終的な性能は0.8427であった。
論文 参考訳(メタデータ) (2025-09-22T08:30:34Z) - SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction [65.15449703659772]
ビデオオブジェクト(VOS)はコンピュータビジョンにおける中核的なタスクであり、ターゲットオブジェクトの追跡とセグメント化をモデルに要求する。
本稿では,従来の特徴マッチングから,高レベルなオブジェクト中心表現のプログレッシブな構築と利用へ移行する概念駆動セグメンテーションフレームワークであるセグメンテーション概念(SeC)を提案する。
SeCはSAM SeCVOSよりも11.8ポイント改善され、最先端のコンセプトを意識したビデオオブジェクトセグメンテーションが新たに確立された。
論文 参考訳(メタデータ) (2025-07-21T17:59:02Z) - 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - 3rd Place Solution for MOSE Track in CVPR 2024 PVUW workshop: Complex Video Object Segmentation [63.199793919573295]
ビデオオブジェクト(VOS)はコンピュータビジョンにおいて重要なタスクであり、ビデオフレーム間の背景から前景オブジェクトを区別することに焦点を当てている。
我々の研究はCutieモデルからインスピレーションを得ており、オブジェクトメモリ、メモリフレームの総数、および入力解像度がセグメンテーション性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-06T00:56:25Z) - What is Point Supervision Worth in Video Instance Segmentation? [119.71921319637748]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的とした、難しいビジョンタスクである。
トレーニング中、ビデオフレーム内の各オブジェクトについて、人間のアノテーションを1点に減らし、完全に教師されたモデルに近い高品質なマスク予測を得る。
3つのVISベンチマークに関する総合的な実験は、提案フレームワークの競合性能を示し、完全に教師付きされた手法にほぼ一致する。
論文 参考訳(メタデータ) (2024-04-01T17:38:25Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z) - Collaborative Attention Memory Network for Video Object Segmentation [3.8520227078236013]
セグメンテーションヘッドを拡張した協調注意記憶ネットワークを提案する。
また,STMネットワークとこれらすべての改良されたCFBIネットワークを組み合わせたアンサンブルネットワークを提案する。
最後に、2021年のYoutube-VOSチャレンジにおいて、総合スコア83.5%で6位となるアプローチを評価した。
論文 参考訳(メタデータ) (2022-05-17T03:40:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。