論文の概要: Real-time Human-Centric Segmentation for Complex Video Scenes
- arxiv url: http://arxiv.org/abs/2108.07199v1
- Date: Mon, 16 Aug 2021 16:07:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 14:57:53.008564
- Title: Real-time Human-Centric Segmentation for Complex Video Scenes
- Title(参考訳): 複雑な映像シーンのためのリアルタイム人間中心セグメンテーション
- Authors: Ran Yu, Chenyu Tian, Weihao Xia, Xinyuan Zhao, Haoqian Wang, Yujiu
Yang
- Abstract要約: 人間」に関連する既存のビデオタスクのほとんどは、ビデオ内の未特定の他のタスクを無視して、有能な人間のセグメンテーションに焦点を当てている。
歩行者や他の州の人間を含む複雑なビデオの中で、すべての人間のセグメンテーションと追跡に焦点を当てた研究はほとんどない。
本稿では,HVISNetと略される新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.57620683425904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing video tasks related to "human" focus on the segmentation of
salient humans, ignoring the unspecified others in the video. Few studies have
focused on segmenting and tracking all humans in a complex video, including
pedestrians and humans of other states (e.g., seated, riding, or occluded). In
this paper, we propose a novel framework, abbreviated as HVISNet, that segments
and tracks all presented people in given videos based on a one-stage detector.
To better evaluate complex scenes, we offer a new benchmark called HVIS (Human
Video Instance Segmentation), which comprises 1447 human instance masks in 805
high-resolution videos in diverse scenes. Extensive experiments show that our
proposed HVISNet outperforms the state-of-the-art methods in terms of accuracy
at a real-time inference speed (30 FPS), especially on complex video scenes. We
also notice that using the center of the bounding box to distinguish different
individuals severely deteriorates the segmentation accuracy, especially in
heavily occluded conditions. This common phenomenon is referred to as the
ambiguous positive samples problem. To alleviate this problem, we propose a
mechanism named Inner Center Sampling to improve the accuracy of instance
segmentation. Such a plug-and-play inner center sampling mechanism can be
incorporated in any instance segmentation models based on a one-stage detector
to improve the performance. In particular, it gains 4.1 mAP improvement on the
state-of-the-art method in the case of occluded humans. Code and data are
available at https://github.com/IIGROUP/HVISNet.
- Abstract(参考訳): 人間」に関連する既存のビデオタスクのほとんどは、ビデオ内の未特定の他のタスクを無視して、有能な人間のセグメンテーションに焦点を当てている。
複雑なビデオの中ですべての人間のセグメンテーションと追跡に焦点を当てた研究はほとんどなく、歩行者や他の州の人間(例えば、座ったり、乗ったり、閉じこもったりなど)が含まれる。
本稿では,hvisnet と略される新しいフレームワークを提案する。このフレームワークは,1段階検出器に基づくビデオに提示されたすべての人物をセグメント化し,追跡するものである。
複雑なシーンをより良く評価するために、我々はhvis(human video instance segmentation)と呼ばれる新しいベンチマークを提供している。
広汎な実験により,提案したHVISNetは,特に複雑な映像シーンにおいて,リアルタイム推論速度(30FPS)の精度で最先端の手法よりも優れていた。
また,各個体の識別にバウンディングボックスの中央を用いると,特に密閉条件下では,セグメンテーション精度が著しく低下することがわかった。
この一般的な現象はあいまいな正のサンプル問題と呼ばれる。
この問題を軽減するために,インナーセンターサンプリングという機構を提案し,インスタンス分割の精度を向上させる。
このようなプラグアンドプレイインナーセンターサンプリング機構は、一段検出器に基づく任意のインスタンスセグメンテーションモデルに組み込んで性能を向上させることができる。
特に、閉塞されたヒトの場合、最先端の手法では4.1mAPの改善がある。
コードとデータはhttps://github.com/iigroup/hvisnetで入手できる。
関連論文リスト
- Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Scene Summarization: Clustering Scene Videos into Spatially Diverse
Frames [24.614476456145255]
本稿では,映像に基づくシーン理解タスクとして要約を提案する。
シーンの長いウォークスルーを、空間的に多様な小さなフレームにまとめることを目的としている。
私たちのソリューションは、SceneSumという名前の2段階の自己管理パイプラインです。
論文 参考訳(メタデータ) (2023-11-28T22:18:26Z) - SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame
Interpolation [11.198172694893927]
SportsSloMoは、130万本以上のビデオクリップと100万フレームの高解像度(720p)のスローモーションスポーツビデオがYouTubeからクロールされたベンチマークである。
ベンチマークでいくつかの最先端手法を再学習し、その結果、他のデータセットと比較して精度が低下していることを示す。
我々は,人間の認識する先行性を考慮した2つの損失項を導入し,汎視的セグメンテーションと人間のキーポイント検出に補助的監督を加える。
論文 参考訳(メタデータ) (2023-08-31T17:23:50Z) - VideoCutLER: Surprisingly Simple Unsupervised Video Instance
Segmentation [87.13210748484217]
VideoCutLERは、光学フローや自然ビデオのトレーニングのようなモーションベースの学習信号を使用することなく、教師なしのマルチインスタンスビデオセグメンテーションの簡単な方法である。
挑戦的なYouTubeVIS 2019ベンチマークで初めて、競争力のない教師なしの学習結果を示し、50.7%のAPvideo50を達成しました。
VideoCutLERは、監督されたビデオインスタンスセグメンテーションタスクのための強力な事前訓練モデルとしても機能し、APビデオの観点からは、YouTubeVIS 2019でDINOを15.9%上回っている。
論文 参考訳(メタデータ) (2023-08-28T17:10:12Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Human Instance Segmentation and Tracking via Data Association and
Single-stage Detector [17.46922710432633]
人間のビデオインスタンスのセグメンテーションは、人間の活動のコンピュータ理解において重要な役割を果たす。
現在のVISメソッドのほとんどはMask-RCNNフレームワークに基づいている。
単段検出器を用いた人間のビデオ・インスタンス・セグメンテーションのための新しい手法を開発した。
論文 参考訳(メタデータ) (2022-03-31T11:36:09Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。