論文の概要: Occluded Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2102.01558v2
- Date: Wed, 3 Feb 2021 08:10:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 13:09:19.065022
- Title: Occluded Video Instance Segmentation
- Title(参考訳): Occluded Video Instance Segmentation
- Authors: Jiyang Qi, Yan Gao, Yao Hu, Xinggang Wang, Xiaoyu Liu, Xiang Bai,
Serge Belongie, Alan Yuille, Philip H.S. Torr, Song Bai
- Abstract要約: OVISと呼ばれる大規模なデータセットを収集し、ビデオインスタンスのセグメンテーションをブロックする。
OVISは25のセマンティックカテゴリから296kの高品質なインスタンスマスクで構成されている。
最先端のアルゴリズムによって達成された最も高いAPは14.4であり、現実世界のシナリオでオブジェクト、インスタンス、ビデオを理解するための初期段階にあることを示している。
- 参考スコア(独自算出の注目度): 133.80567761430584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can our video understanding systems perceive objects when a heavy occlusion
exists in a scene?
To answer this question, we collect a large scale dataset called OVIS for
occluded video instance segmentation, that is, to simultaneously detect,
segment, and track instances in occluded scenes. OVIS consists of 296k
high-quality instance masks from 25 semantic categories, where object
occlusions usually occur. While our human vision systems can understand those
occluded instances by contextual reasoning and association, our experiments
suggest that current video understanding systems are not satisfying. On the
OVIS dataset, the highest AP achieved by state-of-the-art algorithms is only
14.4, which reveals that we are still at a nascent stage for understanding
objects, instances, and videos in a real-world scenario. Moreover, to
complement missing object cues caused by occlusion, we propose a plug-and-play
module called temporal feature calibration. Built upon MaskTrack R-CNN and
SipMask, we report an AP of 15.2 and 15.0 respectively. The OVIS dataset is
released at http://songbai.site/ovis , and the project code will be available
soon.
- Abstract(参考訳): 映像理解システムは,シーン内に重い咬合が存在する場合,物体を知覚できるのか?
この質問に答えるために、OVISと呼ばれる大規模データセットを収集し、ビデオインスタンスのセグメンテーション、すなわち、インクルードされたシーンでインスタンスを検出し、セグメンテーションし、追跡します。
OVISは25のセマンティックカテゴリから296kの高品質のインスタンスマスクで構成されており、オブジェクト閉塞は通常発生します。
人間の視覚システムは文脈的推論と関連づけによってこれらを理解できるが、実験は現在の映像理解システムが満足していないことを示唆する。
OVISデータセットでは、最先端のアルゴリズムによって達成された最高のAPはわずか14.4であり、実際のシナリオでオブジェクト、インスタンス、ビデオを理解するための初期段階にあることを明らかにしています。
また,閉塞による物体の欠落を補うために,時間的特徴キャリブレーションと呼ばれるプラグアンドプレイモジュールを提案する。
MaskTrack R-CNN と SipMask をベースに構築され、AP はそれぞれ 15.2 と 15.0 である。
OVISデータセットはhttp://songbai.site/ovis でリリースされる。
関連論文リスト
- Disentangling spatio-temporal knowledge for weakly supervised object detection and segmentation in surgical video [10.287675722826028]
本稿では,セミデカップリング型時間的知識蒸留を用いて,高品質なクラスアクティベーションマップ(CAM)の予測を行うために,VDST-Net(Video Spatio-Temporal Disment Networks)を導入している。
提案するフレームワークは,一般的な参照データセットや,オブジェクトが平均60%未満の注釈付きフレームに存在する,より困難な手術用ビデオデータセット上で有効であることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:52:32Z) - OW-VISCap: Open-World Video Instance Segmentation and Captioning [95.6696714640357]
本研究では,映像中の映像や未確認の物体の分割,追跡,キャプションを共同で行う手法を提案する。
マスク付アテンション拡張LDM入力により,検出対象毎にリッチな記述文とオブジェクト中心のキャプションを生成する。
当社のアプローチは,3つのタスクにおいて最先端の作業と一致しているか,あるいは超えています。
論文 参考訳(メタデータ) (2024-04-04T17:59:58Z) - MDQE: Mining Discriminative Query Embeddings to Segment Occluded
Instances on Challenging Videos [18.041697331616948]
本稿では,識別クエリ埋め込み (MDQE) を用いて,難易度の高いビデオに隠蔽されたインスタンスを分割する手法を提案する。
提案したMDQEは,簡単なビデオ上での挑戦的なビデオと競争性能について,最先端の結果を得られる,クリップごとの入力を持つ最初のVIS手法である。
論文 参考訳(メタデータ) (2023-03-25T08:13:36Z) - MOSE: A New Dataset for Video Object Segmentation in Complex Scenes [106.64327718262764]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオクリップシーケンス全体を通して特定のオブジェクトをセグメンテーションすることを目的としている。
最先端のVOSメソッドは、既存のデータセット上で優れたパフォーマンス(例えば、90%以上のJ&F)を達成した。
我々は、複雑な環境でのトラッキングとセグメンテーションを研究するために、coMplex video Object SEgmentation (MOSE)と呼ばれる新しいVOSデータセットを収集する。
論文 参考訳(メタデータ) (2023-02-03T17:20:03Z) - VITA: Video Instance Segmentation via Object Token Association [56.17453513956142]
VITAは、既製のTransformerベースのイメージインスタンスセグメンテーションモデルの上に構築されたシンプルな構造である。
バックボーン機能を使わずにフレームレベルの時間的オブジェクトトークンを関連付けることで、ビデオレベルの理解を実現する。
4 AP、49.8 AP-VIS 2019 & 2021、19.6 AP on OVIS。
論文 参考訳(メタデータ) (2022-06-09T10:33:18Z) - Human Instance Segmentation and Tracking via Data Association and
Single-stage Detector [17.46922710432633]
人間のビデオインスタンスのセグメンテーションは、人間の活動のコンピュータ理解において重要な役割を果たす。
現在のVISメソッドのほとんどはMask-RCNNフレームワークに基づいている。
単段検出器を用いた人間のビデオ・インスタンス・セグメンテーションのための新しい手法を開発した。
論文 参考訳(メタデータ) (2022-03-31T11:36:09Z) - Occluded Video Instance Segmentation: Dataset and ICCV 2021 Challenge [133.80567761430584]
我々はOVISと呼ばれる大規模データセットを収集し、隠されたシナリオでビデオインスタンスのセグメンテーションを行う。
OVISは296kの高品質のインスタンスマスクと901の隠蔽シーンで構成されている。
全てのベースライン法は、強吸収対象群で約80%の性能低下に遭遇する。
論文 参考訳(メタデータ) (2021-11-15T17:59:03Z) - Object Propagation via Inter-Frame Attentions for Temporally Stable
Video Instance Segmentation [51.68840525174265]
ビデオインスタンスセグメンテーションは、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的としている。
現在のアプローチでは、画像レベルのセグメンテーションアルゴリズムを時間領域に拡張している。
本稿では,検出の欠如による問題を解消するビデオインスタンス分割手法を提案する。
論文 参考訳(メタデータ) (2021-11-15T04:15:57Z) - 1st Place Solution for YouTubeVOS Challenge 2021:Video Instance
Segmentation [0.39146761527401414]
ビデオインスタンス(VIS)は、検出、セグメンテーション、トラッキングを同時に実行するマルチタスク問題である。
我々はTemporally Correlated Instance (TCIS) と Bidirectional Tracking (BiTrack) という2つのモジュールを提案する。
これらの手法をトリックの袋と組み合わせることで、ネットワーク性能はベースラインに比べて大幅に向上する。
論文 参考訳(メタデータ) (2021-06-12T00:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。