論文の概要: MASSeg : 2nd Technical Report for 4th PVUW MOSE Track
- arxiv url: http://arxiv.org/abs/2504.10254v1
- Date: Mon, 14 Apr 2025 14:15:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:54:49.078314
- Title: MASSeg : 2nd Technical Report for 4th PVUW MOSE Track
- Title(参考訳): 第4回PVUWMOSEトラック技術報告
- Authors: Xuqiang Cao, Linnan Zhao, Jiaxuan Zhao, Fang Liu, Puhua Chen, Wenping Ma,
- Abstract要約: 複雑なビデオオブジェクトセグメンテーションのためのMASSegという改良モデルを提案し,MOSE+という拡張データセットを構築した。
トレーニング中に、堅牢性と一般化を改善するために、フレーム間の一貫性と一貫性のないデータ拡張戦略を組み合わせる。
MASSegはJスコア0.8250、Fスコア0.9007、J&Fスコア0.8628をMOSEテストセットで達成する。
- 参考スコア(独自算出の注目度): 4.988774092444048
- License:
- Abstract: Complex video object segmentation continues to face significant challenges in small object recognition, occlusion handling, and dynamic scene modeling. This report presents our solution, which ranked second in the MOSE track of CVPR 2025 PVUW Challenge. Based on an existing segmentation framework, we propose an improved model named MASSeg for complex video object segmentation, and construct an enhanced dataset, MOSE+, which includes typical scenarios with occlusions, cluttered backgrounds, and small target instances. During training, we incorporate a combination of inter-frame consistent and inconsistent data augmentation strategies to improve robustness and generalization. During inference, we design a mask output scaling strategy to better adapt to varying object sizes and occlusion levels. As a result, MASSeg achieves a J score of 0.8250, F score of 0.9007, and a J&F score of 0.8628 on the MOSE test set.
- Abstract(参考訳): 複雑なビデオオブジェクトのセグメンテーションは、小さなオブジェクト認識、オクルージョンハンドリング、動的シーンモデリングにおいて大きな課題に直面し続けている。
本報告ではCVPR 2025 PVUW ChallengeのMOSEトラックで2位にランクインした。
既存のセグメンテーションフレームワークに基づいて、複雑なビデオオブジェクトのセグメンテーションのためのMASSegと呼ばれる改良モデルを提案し、オクルージョン、乱雑な背景、小さなターゲットインスタンスを含む典型的なシナリオを含む拡張データセットMOSE+を構築した。
トレーニング中に、堅牢性と一般化を改善するために、フレーム間の一貫性と一貫性のないデータ拡張戦略を組み合わせる。
提案手法は,被写体サイズやオクルージョンレベルに適応するために,マスク出力のスケーリング戦略を設計する。
その結果、MASSegはJスコア0.8250、Fスコア0.9007、J&Fスコア0.8628をMOSEテストセットで達成する。
関連論文リスト
- Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
本稿では,空間意味的特徴と識別的オブジェクトクエリを学習する,ロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。
DAVIS 2017 test (textbf87.8%)、YoutubeVOS 2019 (textbf88.1%)、MOSE val (textbf74.0%)、LVOS test (textbf73.0%)を含むベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-10T15:36:00Z) - 2nd Place Solution for MOSE Track in CVPR 2024 PVUW workshop: Complex Video Object Segmentation [8.858448849921832]
インスタンスセグメンテーションを使用して、MOSEの有効およびテストセットから追加の事前学習データを生成する。
セグメント化されたインスタンスは、COCOから抽出されたオブジェクトと組み合わせて、トレーニングデータを増強し、ベースラインモデルのセマンティック表現を強化する。
PVUW 2024のMOSEトラックでは,$mathcalJ$が0.8007,$mathcalF$が0.8683,$mathcalJ$&$mathcalF$が0.8345であった。
論文 参考訳(メタデータ) (2024-06-12T13:21:33Z) - 3rd Place Solution for MOSE Track in CVPR 2024 PVUW workshop: Complex Video Object Segmentation [63.199793919573295]
ビデオオブジェクト(VOS)はコンピュータビジョンにおいて重要なタスクであり、ビデオフレーム間の背景から前景オブジェクトを区別することに焦点を当てている。
我々の研究はCutieモデルからインスピレーションを得ており、オブジェクトメモリ、メモリフレームの総数、および入力解像度がセグメンテーション性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-06T00:56:25Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Instance Segmentation under Occlusions via Location-aware Copy-Paste
Data Augmentation [8.335108002480068]
MMSports 2023 DeepSportRadarは、バスケットボールのコンテキスト内での人間の対象のセグメンテーションに焦点を当てたデータセットを導入した。
この課題は、堅牢なデータ拡張技術と賢明なディープラーニングアーキテクチャの適用を必要とする。
我々の研究(コンペで1位)は、まず、より広い分布でより多くのトレーニングサンプルを生成することのできる、新しいデータ拡張技術を提案する。
論文 参考訳(メタデータ) (2023-10-27T07:44:25Z) - Robustness Analysis on Foundational Segmentation Models [28.01242494123917]
本研究では,セグメンテーションタスクのためのVisual Foundation Models (VFM) のロバストネス解析を行う。
2つの異なるデータセットを使用して、7つの最先端セグメンテーションアーキテクチャをベンチマークする。
VFMは、強靭性において不定形モデルをすべて上回るものではないにもかかわらず、圧縮誘起汚損に対する脆弱性を示し、マルチモーダルモデルはゼロショットシナリオにおける競争力を示し、VFMは特定の対象カテゴリに対して強靭性を示す。
論文 参考訳(メタデータ) (2023-06-15T16:59:42Z) - Weakly-Supervised Concealed Object Segmentation with SAM-based Pseudo
Labeling and Multi-scale Feature Grouping [40.07070188661184]
Wakly-Supervised Concealed Object (WSCOS) は、周囲の環境とうまく融合したオブジェクトを分割することを目的としている。
内在的な類似性のため、背景から隠された物体を区別することは困難である。
これら2つの課題に対処する新しいWSCOS手法を提案する。
論文 参考訳(メタデータ) (2023-05-18T14:31:34Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - 1st Place Solutions for OpenImage2019 -- Object Detection and Instance
Segmentation [116.25081559037872]
この記事では,2つのチャンピオンチーム,検出トラックのMMfruit'とセグメンテーショントラックのMMfruitSeg'のソリューションについて,OpenImage Challenge 2019で紹介する。
一般に、対象検出器の場合、バックボーンの端の共有特徴は分類と回帰の両方に適さないことが知られている。
自己学習型最適特徴抽出によりオブジェクトの分類と回帰を分離するデカップリングヘッド(DH)を提案する。
論文 参考訳(メタデータ) (2020-03-17T06:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。