論文の概要: LVOS: A Benchmark for Long-term Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2211.10181v1
- Date: Fri, 18 Nov 2022 11:59:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 15:10:45.087229
- Title: LVOS: A Benchmark for Long-term Video Object Segmentation
- Title(参考訳): LVOS: 長期ビデオオブジェクトセグメンテーションのためのベンチマーク
- Authors: Lingyi Hong, Wenchao Chen, Zhongying Liu, Wei Zhang, Pinxue Guo,
Zhaoyu Chen, Wenqiang Zhang
- Abstract要約: LVOSと呼ばれる新しいベンチマークデータセットと評価手法を提案し、合計421分間の220の動画で構成されている。
LVOSのビデオは平均1.59分で、既存のVOSデータセットのビデオの20倍の長さです。
本稿では,時間的情報を適切に活用するための3つの相補的メモリバンクからなる横動的メモリネットワーク(DDMemory)を提案する。
- 参考スコア(独自算出の注目度): 17.095347896563243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing video object segmentation (VOS) benchmarks focus on short-term
videos which just last about 3-5 seconds and where objects are visible most of
the time. These videos are poorly representative of practical applications, and
the absence of long-term datasets restricts further investigation of VOS on the
application in realistic scenarios. So, in this paper, we present a new
benchmark dataset and evaluation methodology named LVOS, which consists of 220
videos with a total duration of 421 minutes. To the best of our knowledge, LVOS
is the first densely annotated long-term VOS dataset. The videos in our LVOS
last 1.59 minutes on average, which is 20 times longer than videos in existing
VOS datasets. Each video includes various attributes, especially challenges
deriving from the wild, such as long-term reappearing and cross-temporal
similar objeccts. Moreover, we provide additional language descriptions to
encourage the exploration of integrating linguistic and visual features for
video object segmentation. Based on LVOS, we assess existing video object
segmentation algorithms and propose a Diverse Dynamic Memory network (DDMemory)
that consists of three complementary memory banks to exploit temporal
information adequately. The experiment results demonstrate the strength and
weaknesses of prior methods, pointing promising directions for further study.
Our objective is to provide the community with a large and varied benchmark to
boost the advancement of long-term VOS. Data and code are available at
\url{https://lingyihongfd.github.io/lvos.github.io/}.
- Abstract(参考訳): 既存のvos(video object segmentation)ベンチマークでは、約3~5秒の短いビデオに焦点が当てられている。
これらのビデオは実用性に乏しく、長期的なデータセットがないため、現実的なシナリオにおけるVOSのさらなる研究が制限される。
そこで本稿では,本論文で提案するlvosというベンチマークデータセットと評価手法を提案する。
我々の知る限りでは、LVOSは最初の高密度アノテーション付き長期VOSデータセットである。
LVOSのビデオは平均1.59分で、既存のVOSデータセットのビデオの20倍の長さです。
それぞれのビデオには様々な属性が含まれており、特に長期の再登場や時空的類似のobjecctなど、野生から生じる課題がある。
さらに,ビデオオブジェクトセグメンテーションのための言語的特徴と視覚的特徴の統合を奨励するために,追加の言語記述を提供する。
LVOSをベースとして,既存の映像オブジェクト分割アルゴリズムを評価し,時間情報を適切に活用するための3つの相補的メモリバンクからなる Diverse Dynamic Memory Network (DDMemory) を提案する。
実験結果は,先行手法の強度と弱さを示し,今後の研究に有望な方向を示した。
我々の目標は、長期VOSの進歩を促進するために、大規模で多様なベンチマークをコミュニティに提供することである。
データとコードは \url{https://lingyihongfd.github.io/lvos.github.io/} で入手できる。
関連論文リスト
- LVCHAT: Facilitating Long Video Comprehension [25.395689904747965]
本稿では,Long Video Chat (LVChat) を提案する。
LVは、長ビデオのQAデータセットと長ビデオのキャプションベンチマークにおいて、既存の手法を最大27%上回っている。
論文 参考訳(メタデータ) (2024-02-19T11:59:14Z) - EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language
Understanding [53.275916136138996]
Egoは、250時間以上の実際のビデオデータにまたがる、非常に長い形式のビデオ質問回答データセットである。
それぞれの質問に対して、Egoは3分間のビデオクリップに基づいて、与えられた5つのオプションの中から正しい回答を選択する必要がある。
Egoは、第2の最も近いデータセットよりも5.7倍、他のビデオ理解データセットより10倍長い時間長を持つ。
論文 参考訳(メタデータ) (2023-08-17T17:59:59Z) - READMem: Robust Embedding Association for a Diverse Memory in
Unconstrained Video Object Segmentation [24.813416082160224]
制約のないビデオを扱うためのsVOSメソッドのためのモジュラーフレームワークであるREADMemを提示する。
本稿では、メモリに格納された埋め込みと、更新プロセス中にクエリ埋め込みとを堅牢に関連付けることを提案する。
提案手法は,LV(Long-time Video dataset)において,短いシーケンスのパフォーマンスを損なうことなく,競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T08:31:16Z) - MOSE: A New Dataset for Video Object Segmentation in Complex Scenes [106.64327718262764]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオクリップシーケンス全体を通して特定のオブジェクトをセグメンテーションすることを目的としている。
最先端のVOSメソッドは、既存のデータセット上で優れたパフォーマンス(例えば、90%以上のJ&F)を達成した。
我々は、複雑な環境でのトラッキングとセグメンテーションを研究するために、coMplex video Object SEgmentation (MOSE)と呼ばれる新しいVOSデータセットを収集する。
論文 参考訳(メタデータ) (2023-02-03T17:20:03Z) - Region Aware Video Object Segmentation with Deep Motion Modeling [56.95836951559529]
Region Aware Video Object (RAVOS) は、効率的なオブジェクトセグメンテーションとメモリストレージのための関心領域を予測する手法である。
効率的なセグメンテーションのために、ROIに応じてオブジェクトの特徴を抽出し、オブジェクトレベルのセグメンテーションのためにオブジェクトデコーダを設計する。
効率的なメモリ記憶のために,2つのフレーム間のオブジェクトの移動経路内の特徴を記憶することで,冗長なコンテキストをフィルタリングする動作パスメモリを提案する。
論文 参考訳(メタデータ) (2022-07-21T01:44:40Z) - 5th Place Solution for YouTube-VOS Challenge 2022: Video Object
Segmentation [4.004851693068654]
ビデオオブジェクトセグメンテーション(VOS)は、ディープラーニングの台頭とともに大きな進歩を遂げた。
類似の物体は容易に混同され、小さな物体を見つけるのが困難である。
本稿では,この課題に対する単純かつ効果的な解決法を提案する。
論文 参考訳(メタデータ) (2022-06-20T06:14:27Z) - Local-Global Context Aware Transformer for Language-Guided Video
Segmentation [103.35509224722097]
言語誘導ビデオセグメンテーション(LVS)の課題について検討する。
そこで我々は,Transformerアーキテクチャを有限メモリで拡張し,動画全体を言語表現で効率的にクエリするLocaterを提案する。
LVSモデルの視覚的接地能力を徹底的に検討するため、新しいLVSデータセットであるA2D-S+をA2D-Sデータセット上に構築する。
論文 参考訳(メタデータ) (2022-03-18T07:35:26Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Dual Temporal Memory Network for Efficient Video Object Segmentation [42.05305410986511]
ビデオオブジェクト(VOS)の基本的な課題の1つは、時間情報を最大限活用してパフォーマンスを向上する方法である。
本稿では,現在のフレームに先行する短・長期のビデオシーケンス情報を時間記憶として格納するエンド・ツー・エンド・ネットワークを提案する。
我々のネットワークは、短期記憶サブネットワークと長期記憶サブネットワークを含む2つの時間的サブネットワークで構成されている。
論文 参考訳(メタデータ) (2020-03-13T06:07:45Z) - Learning Video Object Segmentation from Unlabeled Videos [158.18207922363783]
未ラベルビデオからのオブジェクトパターン学習に対処するビデオオブジェクトセグメンテーション(VOS)を提案する。
複数の粒度で VOS の特性を包括的にキャプチャする,教師なし/弱教師付き学習フレームワーク MuG を導入している。
論文 参考訳(メタデータ) (2020-03-10T22:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。