論文の概要: MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes
- arxiv url: http://arxiv.org/abs/2508.05630v1
- Date: Thu, 07 Aug 2025 17:59:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.988779
- Title: MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes
- Title(参考訳): MOSEv2 - 複雑なシーンにおけるビデオオブジェクトのセグメンテーションのためのより複雑なデータセット
- Authors: Henghui Ding, Kaining Ying, Chang Liu, Shuting He, Xudong Jiang, Yu-Gang Jiang, Philip H. S. Torr, Song Bai,
- Abstract要約: ビデオオブジェクトセグメンテーション(VOS)は、ビデオ全体を通して特定のターゲットオブジェクトをセグメンテーションすることを目的としている。
VOSをより現実的な環境に進めるために、コモプレックスビデオオブジェクトセグメンテーション(MOSEv1)が導入された。
このMOSEv2は,実環境下でのVOS手法をさらに発展させるために設計された,はるかに難しいデータセットである。
- 参考スコア(独自算出の注目度): 137.1500445443403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video object segmentation (VOS) aims to segment specified target objects throughout a video. Although state-of-the-art methods have achieved impressive performance (e.g., 90+% J&F) on existing benchmarks such as DAVIS and YouTube-VOS, these datasets primarily contain salient, dominant, and isolated objects, limiting their generalization to real-world scenarios. To advance VOS toward more realistic environments, coMplex video Object SEgmentation (MOSEv1) was introduced to facilitate VOS research in complex scenes. Building on the strengths and limitations of MOSEv1, we present MOSEv2, a significantly more challenging dataset designed to further advance VOS methods under real-world conditions. MOSEv2 consists of 5,024 videos and over 701,976 high-quality masks for 10,074 objects across 200 categories. Compared to its predecessor, MOSEv2 introduces significantly greater scene complexity, including more frequent object disappearance and reappearance, severe occlusions and crowding, smaller objects, as well as a range of new challenges such as adverse weather (e.g., rain, snow, fog), low-light scenes (e.g., nighttime, underwater), multi-shot sequences, camouflaged objects, non-physical targets (e.g., shadows, reflections), scenarios requiring external knowledge, etc. We benchmark 20 representative VOS methods under 5 different settings and observe consistent performance drops. For example, SAM2 drops from 76.4% on MOSEv1 to only 50.9% on MOSEv2. We further evaluate 9 video object tracking methods and find similar declines, demonstrating that MOSEv2 presents challenges across tasks. These results highlight that despite high accuracy on existing datasets, current VOS methods still struggle under real-world complexities. MOSEv2 is publicly available at https://MOSE.video.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(VOS)は、ビデオ全体を通して特定のターゲットオブジェクトをセグメンテーションすることを目的としている。
最先端の手法は、DAVISやYouTube-VOSといった既存のベンチマークにおいて、印象的なパフォーマンス(例えば、90%以上のJ&F)を達成したが、これらのデータセットは主に、正常で支配的、孤立したオブジェクトを含み、その一般化を現実のシナリオに限定している。
より現実的な環境に向けて、複雑な場面でのVOS研究を促進するために、コモプレックスビデオオブジェクトセグメンテーション(MOSEv1)が導入された。
MOSEv1の強みと限界に基づいて、実世界の条件下でのVOSメソッドをさらに前進させるために設計された、非常に難しいデータセットであるMOSEv2を提案する。
MOSEv2は5,024本のビデオと701,976本以上の高品質のマスクで構成され、200のカテゴリで10,074件のオブジェクトがある。
前者と比較して、MOSEv2は、より頻繁なオブジェクトの消失と再出現、厳密な隠蔽と群集、小さなオブジェクト、悪天候(例:雨、雪、霧)、低照度シーン(例:夜、水中)、マルチショットシーケンス、偽装されたオブジェクト、非物理的ターゲット(例:影、反射)、外部知識を必要とするシナリオなどを含む、はるかに大きなシーンの複雑さを導入している。
5つの異なる条件下で20の代表的なVOSメソッドをベンチマークし、一貫した性能低下を観察する。
例えばSAM2は、MOSEv1では76.4%から、MOSEv2では50.9%に低下する。
さらに、9つのビデオオブジェクト追跡手法を評価し、同様の低下を見いだし、MOSEv2がタスク間の課題を示すことを示した。
これらの結果は、既存のデータセットに高い精度があるにもかかわらず、現在のVOSメソッドは現実世界の複雑さの下で依然として苦労していることを強調している。
MOSEv2はhttps://MOSE.video.comで公開されている。
関連論文リスト
- DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。
我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - Discriminative Spatial-Semantic VOS Solution: 1st Place Solution for 6th LSVOS [68.47681139026666]
ビデオオブジェクトセグメンテーション(VOS)はコンピュータビジョンにおいて重要な課題である。
現在のVOS法は複雑なシーンと長い物体の動きに苦しむ。
本報告では,空間時空間VOSモデルについて述べる。
論文 参考訳(メタデータ) (2024-08-29T10:47:17Z) - LSVOS Challenge 3rd Place Report: SAM2 and Cutie based VOS [25.894649323139987]
我々は、これらの課題に対処するために、最先端(SOTA)モデルSAM2とCutieの長所を組み合わせる。
LSVOS チャレンジ VOS トラックの試験段階での J&F スコアは 0.7952 に達し, 総合3位となった。
論文 参考訳(メタデータ) (2024-08-20T00:45:13Z) - Video Object Segmentation via SAM 2: The 4th Solution for LSVOS Challenge VOS Track [28.52754012142431]
Segment Anything Model 2 (SAM2) は、画像やビデオにおける迅速な視覚的セグメンテーションを解決するための基礎モデルである。
SAM 2は、ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集している。
訓練セットを微調整することなく、SAM 2はテストセットで75.79 J&Fを獲得し、第6回LSVOSチャレンジVOSトラックでは4位となった。
論文 参考訳(メタデータ) (2024-08-19T16:13:14Z) - 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - 3rd Place Solution for MOSE Track in CVPR 2024 PVUW workshop: Complex Video Object Segmentation [63.199793919573295]
ビデオオブジェクト(VOS)はコンピュータビジョンにおいて重要なタスクであり、ビデオフレーム間の背景から前景オブジェクトを区別することに焦点を当てている。
我々の研究はCutieモデルからインスピレーションを得ており、オブジェクトメモリ、メモリフレームの総数、および入力解像度がセグメンテーション性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-06T00:56:25Z) - MF-MOS: A Motion-Focused Model for Moving Object Segmentation [10.533968185642415]
移動オブジェクトセグメンテーション(MOS)は、トラフィック参加者を検出する信頼性の高いソリューションを提供する。
これまでの方法では、レンジ画像から直接動きの特徴をキャプチャする。
We propose MF-MOS, a novel motion- focused model with a dual-branch structure for LiDAR moving object segmentation。
論文 参考訳(メタデータ) (2024-01-30T13:55:56Z) - MOSE: A New Dataset for Video Object Segmentation in Complex Scenes [106.64327718262764]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオクリップシーケンス全体を通して特定のオブジェクトをセグメンテーションすることを目的としている。
最先端のVOSメソッドは、既存のデータセット上で優れたパフォーマンス(例えば、90%以上のJ&F)を達成した。
我々は、複雑な環境でのトラッキングとセグメンテーションを研究するために、coMplex video Object SEgmentation (MOSE)と呼ばれる新しいVOSデータセットを収集する。
論文 参考訳(メタデータ) (2023-02-03T17:20:03Z) - Breaking the "Object" in Video Object Segmentation [36.20167854011788]
変換(VOST)に基づくビデオオブジェクトのデータセットを提案する。
700以上の高解像度ビデオで構成され、さまざまな環境で撮影され、平均21秒の長さで、マスクのインスタンスで密にラベル付けされている。
これらのビデオは、複雑なオブジェクト変換に焦点を合わせ、その完全な時間的範囲を捉えるために、注意深いマルチステップのアプローチが採用されている。
本研究は,本課題に適用した場合の既存手法の問題点と,その主な限界が,静的な外観上の過度な信頼にあることを示す。
論文 参考訳(メタデータ) (2022-12-12T19:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。