論文の概要: LVOS: A Benchmark for Large-scale Long-term Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2404.19326v2
- Date: Wed, 1 May 2024 01:30:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 10:59:25.967676
- Title: LVOS: A Benchmark for Large-scale Long-term Video Object Segmentation
- Title(参考訳): LVOS: 大規模ビデオオブジェクトセグメンテーションのためのベンチマーク
- Authors: Lingyi Hong, Zhongying Liu, Wenchao Chen, Chenzhi Tan, Yuang Feng, Xinyu Zhou, Pinxue Guo, Jinglun Li, Zhaoyu Chen, Shuyong Gao, Wei Zhang, Wenqiang Zhang,
- Abstract要約: ビデオオブジェクトセグメンテーション(VOS)は、ビデオ内のターゲットオブジェクトの識別と追跡を目的としている。
既存のベンチマークは主に、ほとんどの場合オブジェクトが見える短期的なビデオに焦点を当てている。
296,401フレームの720の動画と407,945の高品質アノテーションからなるLVOSという新しいベンチマークを提案する。
LVOSのビデオは平均1.14分であり、既存のデータセットのビデオの約5倍の長さである。
- 参考スコア(独自算出の注目度): 29.07092353094942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video object segmentation (VOS) aims to distinguish and track target objects in a video. Despite the excellent performance achieved by off-the-shell VOS models, existing VOS benchmarks mainly focus on short-term videos lasting about 5 seconds, where objects remain visible most of the time. However, these benchmarks poorly represent practical applications, and the absence of long-term datasets restricts further investigation of VOS in realistic scenarios. Thus, we propose a novel benchmark named LVOS, comprising 720 videos with 296,401 frames and 407,945 high-quality annotations. Videos in LVOS last 1.14 minutes on average, approximately 5 times longer than videos in existing datasets. Each video includes various attributes, especially challenges deriving from the wild, such as long-term reappearing and cross-temporal similar objects. Compared to previous benchmarks, our LVOS better reflects VOS models' performance in real scenarios. Based on LVOS, we evaluate 20 existing VOS models under 4 different settings and conduct a comprehensive analysis. On LVOS, these models suffer a large performance drop, highlighting the challenge of achieving precise tracking and segmentation in real-world scenarios. Attribute-based analysis indicates that key factor to accuracy decline is the increased video length, emphasizing LVOS's crucial role. We hope our LVOS can advance development of VOS in real scenes. Data and code are available at https://lingyihongfd.github.io/lvos.github.io/.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(VOS)は、ビデオ内のターゲットオブジェクトの識別と追跡を目的としている。
既製のVOSモデルによって達成された優れたパフォーマンスにもかかわらず、既存のVOSベンチマークは主に5秒間の短いビデオに焦点を合わせている。
しかし、これらのベンチマークは実用性に乏しく、長期的なデータセットがないため、現実的なシナリオにおけるVOSのさらなる研究が制限される。
そこで,296,401フレームの720の動画と407,945の高品質アノテーションからなるLVOSという新しいベンチマークを提案する。
LVOSのビデオは平均1.14分であり、既存のデータセットのビデオの約5倍の長さである。
それぞれのビデオには様々な属性が含まれており、特に長期的な再出現や時間横断的な類似の物体など、野生から派生した課題がある。
以前のベンチマークと比較すると、我々のLVOSは実シナリオでのVOSモデルのパフォーマンスをよりよく反映しています。
LVOSに基づいて、4つの異なる条件下で20種類の既存のVOSモデルを評価し、包括的な分析を行う。
LVOSでは、これらのモデルは大きなパフォーマンス低下を被り、現実世界のシナリオで正確なトラッキングとセグメンテーションを達成するという課題を浮き彫りにしている。
属性に基づく分析は、精度低下の鍵となる要因がビデオ長の増加であり、LVOSの重要な役割を強調していることを示している。
LVOSが実際の場面でVOSの開発を進めることを願っています。
データとコードはhttps://lingyihongfd.github.io/lvos.github.io/で公開されている。
関連論文リスト
- Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。
我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:58Z) - Learning Cross-Modal Affinity for Referring Video Object Segmentation
Targeting Limited Samples [61.66967790884943]
ビデオオブジェクトセグメンテーション(RVOS)の参照は、所定のシーンに十分なデータに依存する。
より現実的なシナリオでは、新しいシーンで利用できるのは最小限のアノテーションだけです。
トランスフォーマーアーキテクチャに基づいた,新たに設計したクロスモーダル親和性(CMA)モジュールを用いたモデルを提案する。
CMAモジュールは、いくつかのサンプルでマルチモーダル親和性を構築し、新しいセマンティック情報を素早く学習し、モデルが異なるシナリオに適応できるようにする。
論文 参考訳(メタデータ) (2023-09-05T08:34:23Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - MOSE: A New Dataset for Video Object Segmentation in Complex Scenes [106.64327718262764]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオクリップシーケンス全体を通して特定のオブジェクトをセグメンテーションすることを目的としている。
最先端のVOSメソッドは、既存のデータセット上で優れたパフォーマンス(例えば、90%以上のJ&F)を達成した。
我々は、複雑な環境でのトラッキングとセグメンテーションを研究するために、coMplex video Object SEgmentation (MOSE)と呼ばれる新しいVOSデータセットを収集する。
論文 参考訳(メタデータ) (2023-02-03T17:20:03Z) - LVOS: A Benchmark for Long-term Video Object Segmentation [31.76468328063721]
textbfLVOSという,合計421分間の220ビデオからなるベンチマークデータセットを提案する。
LVOSのビデオは平均1.59分で、既存のVOSデータセットのビデオの20倍の長さです。
本稿では,時間的情報を適切に活用するための3つの相補的メモリバンクからなる横動的メモリネットワーク(DDMemory)を提案する。
論文 参考訳(メタデータ) (2022-11-18T11:59:37Z) - Region Aware Video Object Segmentation with Deep Motion Modeling [56.95836951559529]
Region Aware Video Object (RAVOS) は、効率的なオブジェクトセグメンテーションとメモリストレージのための関心領域を予測する手法である。
効率的なセグメンテーションのために、ROIに応じてオブジェクトの特徴を抽出し、オブジェクトレベルのセグメンテーションのためにオブジェクトデコーダを設計する。
効率的なメモリ記憶のために,2つのフレーム間のオブジェクトの移動経路内の特徴を記憶することで,冗長なコンテキストをフィルタリングする動作パスメモリを提案する。
論文 参考訳(メタデータ) (2022-07-21T01:44:40Z) - 5th Place Solution for YouTube-VOS Challenge 2022: Video Object
Segmentation [4.004851693068654]
ビデオオブジェクトセグメンテーション(VOS)は、ディープラーニングの台頭とともに大きな進歩を遂げた。
類似の物体は容易に混同され、小さな物体を見つけるのが困難である。
本稿では,この課題に対する単純かつ効果的な解決法を提案する。
論文 参考訳(メタデータ) (2022-06-20T06:14:27Z) - Learning Video Object Segmentation from Unlabeled Videos [158.18207922363783]
未ラベルビデオからのオブジェクトパターン学習に対処するビデオオブジェクトセグメンテーション(VOS)を提案する。
複数の粒度で VOS の特性を包括的にキャプチャする,教師なし/弱教師付き学習フレームワーク MuG を導入している。
論文 参考訳(メタデータ) (2020-03-10T22:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。