論文の概要: Human Instance Segmentation and Tracking via Data Association and
Single-stage Detector
- arxiv url: http://arxiv.org/abs/2203.16966v1
- Date: Thu, 31 Mar 2022 11:36:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 13:54:30.770039
- Title: Human Instance Segmentation and Tracking via Data Association and
Single-stage Detector
- Title(参考訳): データアソシエーションと単段検出器によるヒューマンインスタンスのセグメンテーションと追跡
- Authors: Lu Cheng and Mingbo Zhao
- Abstract要約: 人間のビデオインスタンスのセグメンテーションは、人間の活動のコンピュータ理解において重要な役割を果たす。
現在のVISメソッドのほとんどはMask-RCNNフレームワークに基づいている。
単段検出器を用いた人間のビデオ・インスタンス・セグメンテーションのための新しい手法を開発した。
- 参考スコア(独自算出の注目度): 17.46922710432633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human video instance segmentation plays an important role in computer
understanding of human activities and is widely used in video processing, video
surveillance, and human modeling in virtual reality. Most current VIS methods
are based on Mask-RCNN framework, where the target appearance and motion
information for data matching will increase computational cost and have an
impact on segmentation real-time performance; on the other hand, the existing
datasets for VIS focus less on all the people appearing in the video. In this
paper, to solve the problems, we develop a new method for human video instance
segmentation based on single-stage detector. To tracking the instance across
the video, we have adopted data association strategy for matching the same
instance in the video sequence, where we jointly learn target instance
appearances and their affinities in a pair of video frames in an end-to-end
fashion. We have also adopted the centroid sampling strategy for enhancing the
embedding extraction ability of instance, which is to bias the instance
position to the inside of each instance mask with heavy overlap condition. As a
result, even there exists a sudden change in the character activity, the
instance position will not move out of the mask, so that the problem that the
same instance is represented by two different instances can be alleviated.
Finally, we collect PVIS dataset by assembling several video instance
segmentation datasets to fill the gap of the current lack of datasets dedicated
to human video segmentation. Extensive simulations based on such dataset has
been conduct. Simulation results verify the effectiveness and efficiency of the
proposed work.
- Abstract(参考訳): 人間のビデオインスタンスセグメンテーションは、人間の活動のコンピュータ理解において重要な役割を担い、ビデオ処理、ビデオ監視、バーチャルリアリティーにおける人間のモデリングにおいて広く利用されている。
現在のVISメソッドの多くはMask-RCNNフレームワークをベースとしており、ターゲットの外観やデータマッチングの動作情報は計算コストを増大させ、セグメント化のリアルタイムパフォーマンスに影響を与える。
本稿では,この問題を解決するために,単段検出器を用いた人間のビデオインスタンスセグメンテーション手法を開発した。
ビデオ全体のインスタンスを追跡するために、ビデオシーケンス内の同じインスタンスをマッチングするためのデータアソシエイト戦略を採用し、目的のインスタンスの外観と親和性をエンドツーエンドで一対の動画フレームで共同で学習する。
また,重重畳条件で各インスタンスマスクの内部にインスタンス位置を偏差させることにより,組込み抽出能力を向上するセントロイドサンプリング戦略を採用した。
その結果、キャラクタアクティビティが突然変化しても、インスタンス位置がマスクから移動しないため、同じインスタンスが2つの異なるインスタンスで表現される問題を軽減することができる。
最後に、複数のビデオインスタンスセグメンテーションデータセットを組み立ててPVISデータセットを収集し、人間のビデオセグメンテーション専用のデータセットの欠如のギャップを埋める。
このようなデータセットに基づく広範なシミュレーションが実施されている。
シミュレーションの結果,提案手法の有効性と有効性を検証した。
関連論文リスト
- Context-Aware Video Instance Segmentation [12.71520768233772]
本稿では,コンテキスト対応型ビデオインスタンス(CAVIS)について紹介する。
本研究では、コンテキスト認識型インスタンス追跡装置(CAIT)を提案する。これは、インスタンスを取り巻くコンテキストデータをコアインスタンス機能とマージすることで、トラッキング精度を向上させる。
また,PCC(Prototypeal Cross-frame Contrastive)ロスを導入し,フレーム間のオブジェクトレベルの特徴の整合性を確保する。
論文 参考訳(メタデータ) (2024-07-03T11:11:16Z) - Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - End-to-end video instance segmentation via spatial-temporal graph neural
networks [30.748756362692184]
ビデオインスタンスセグメンテーションは、イメージインスタンスセグメンテーションをビデオドメインに拡張する難しいタスクである。
既存のメソッドは、検出とセグメンテーションのサブプロブレムにのみシングルフレーム情報に依存するか、別の後処理ステップとしてハンドラートラッキングを使用する。
上述の制限に対処するグラフニューラルネット(GNN)に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T05:38:08Z) - Reliable Shot Identification for Complex Event Detection via
Visual-Semantic Embedding [72.9370352430965]
本稿では,映像中の事象検出のための視覚的意味的誘導損失法を提案する。
カリキュラム学習に動機付け,高い信頼性の事例で分類器の訓練を開始するために,負の弾性正規化項を導入する。
提案する非ネット正規化問題の解法として,代替最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-12T11:46:56Z) - 1st Place Solution for YouTubeVOS Challenge 2021:Video Instance
Segmentation [0.39146761527401414]
ビデオインスタンス(VIS)は、検出、セグメンテーション、トラッキングを同時に実行するマルチタスク問題である。
我々はTemporally Correlated Instance (TCIS) と Bidirectional Tracking (BiTrack) という2つのモジュールを提案する。
これらの手法をトリックの袋と組み合わせることで、ネットワーク性能はベースラインに比べて大幅に向上する。
論文 参考訳(メタデータ) (2021-06-12T00:20:38Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。