論文の概要: Occluded Video Instance Segmentation: Dataset and ICCV 2021 Challenge
- arxiv url: http://arxiv.org/abs/2111.07950v1
- Date: Mon, 15 Nov 2021 17:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 16:09:13.281263
- Title: Occluded Video Instance Segmentation: Dataset and ICCV 2021 Challenge
- Title(参考訳): Occluded Video Instance Segmentation: DatasetとICCV 2021 Challenge
- Authors: Jiyang Qi, Yan Gao, Yao Hu, Xinggang Wang, Xiaoyu Liu, Xiang Bai,
Serge Belongie, Alan Yuille, Philip H.S. Torr, Song Bai
- Abstract要約: 我々はOVISと呼ばれる大規模データセットを収集し、隠されたシナリオでビデオインスタンスのセグメンテーションを行う。
OVISは296kの高品質のインスタンスマスクと901の隠蔽シーンで構成されている。
全てのベースライン法は、強吸収対象群で約80%の性能低下に遭遇する。
- 参考スコア(独自算出の注目度): 133.80567761430584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although deep learning methods have achieved advanced video object
recognition performance in recent years, perceiving heavily occluded objects in
a video is still a very challenging task. To promote the development of
occlusion understanding, we collect a large-scale dataset called OVIS for video
instance segmentation in the occluded scenario. OVIS consists of 296k
high-quality instance masks and 901 occluded scenes. While our human vision
systems can perceive those occluded objects by contextual reasoning and
association, our experiments suggest that current video understanding systems
cannot. On the OVIS dataset, all baseline methods encounter a significant
performance degradation of about 80% in the heavily occluded object group,
which demonstrates that there is still a long way to go in understanding
obscured objects and videos in a complex real-world scenario. To facilitate the
research on new paradigms for video understanding systems, we launched a
challenge based on the OVIS dataset. The submitted top-performing algorithms
have achieved much higher performance than our baselines. In this paper, we
will introduce the OVIS dataset and further dissect it by analyzing the results
of baselines and submitted methods. The OVIS dataset and challenge information
can be found at http://songbai.site/ovis .
- Abstract(参考訳): 近年、深層学習技術は高度なビデオオブジェクト認識性能を達成しているが、ビデオに隠されたオブジェクトを認識することは依然として非常に難しい課題である。
咬合理解の発達を促進するため,OVISと呼ばれる大規模データセットを収集し,隠蔽シナリオにおけるビデオインスタンスのセグメンテーションを行う。
OVISは296kの高品質のインスタンスマスクと901の隠蔽シーンで構成されている。
人間の視覚システムは文脈的推論と連想によってこれらの物体を知覚することができるが、実験は現在の映像理解システムでは理解できないことを示唆する。
OVISデータセットでは、すべてのベースラインメソッドが、密集したオブジェクトグループの約80%の大幅なパフォーマンス劣化に直面しており、複雑な現実世界のシナリオにおいて、隠蔽されたオブジェクトやビデオを理解するにはまだまだ長い道のりがあることを示している。
ビデオ理解システムのための新しいパラダイムの研究を容易にするため,OVISデータセットに基づいた課題を提起した。
提案したトップパフォーマンスアルゴリズムは,ベースラインよりもはるかに高いパフォーマンスを実現しています。
本稿では、OVISデータセットを導入し、ベースラインの結果を分析し、提案手法を解析して、さらに分析する。
OVISデータセットとチャレンジ情報はhttp://songbai.site/ovis にある。
関連論文リスト
- VISA: Reasoning Video Object Segmentation via Large Language Models [64.33167989521357]
我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。
このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。
本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
論文 参考訳(メタデータ) (2024-07-16T02:29:29Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - Self-supervised Video Object Segmentation with Distillation Learning of Deformable Attention [29.62044843067169]
ビデオオブジェクトセグメンテーションはコンピュータビジョンの基本的な研究課題である。
変形性注意の蒸留学習に基づく自己教師型ビデオオブジェクトセグメンテーション法を提案する。
論文 参考訳(メタデータ) (2024-01-25T04:39:48Z) - MOSE: A New Dataset for Video Object Segmentation in Complex Scenes [106.64327718262764]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオクリップシーケンス全体を通して特定のオブジェクトをセグメンテーションすることを目的としている。
最先端のVOSメソッドは、既存のデータセット上で優れたパフォーマンス(例えば、90%以上のJ&F)を達成した。
我々は、複雑な環境でのトラッキングとセグメンテーションを研究するために、coMplex video Object SEgmentation (MOSE)と呼ばれる新しいVOSデータセットを収集する。
論文 参考訳(メタデータ) (2023-02-03T17:20:03Z) - Occluded Video Instance Segmentation [133.80567761430584]
OVISと呼ばれる大規模なデータセットを収集し、ビデオインスタンスのセグメンテーションをブロックする。
OVISは25のセマンティックカテゴリから296kの高品質なインスタンスマスクで構成されている。
最先端のアルゴリズムによって達成された最も高いAPは14.4であり、現実世界のシナリオでオブジェクト、インスタンス、ビデオを理解するための初期段階にあることを示している。
論文 参考訳(メタデータ) (2021-02-02T15:35:43Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。