論文の概要: Contextual Guided Segmentation Framework for Semi-supervised Video
Instance Segmentation
- arxiv url: http://arxiv.org/abs/2106.03330v1
- Date: Mon, 7 Jun 2021 04:16:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 13:18:27.900179
- Title: Contextual Guided Segmentation Framework for Semi-supervised Video
Instance Segmentation
- Title(参考訳): 半教師付きビデオインスタンスセグメンテーションのための文脈案内セグメンテーションフレームワーク
- Authors: Trung-Nghia Le and Tam V. Nguyen and Minh-Triet Tran
- Abstract要約: ビデオインスタンスのセグメンテーションを3つのパスで行うためのContextual Guided (CGS) フレームワークを提案する。
最初のパス、すなわちプレビューセグメンテーションでは、各インスタンスの主特性を推定するためにインスタンス再識別フローを提案します。
第2のパス、すなわちコンテキストセグメンテーションでは、複数のコンテキストセグメンテーションスキームを導入する。
DAVIS Test-Challengeデータセットを用いて実験を行い,提案手法の有効性を実証した。
- 参考スコア(独自算出の注目度): 20.174393465900156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose Contextual Guided Segmentation (CGS) framework for
video instance segmentation in three passes. In the first pass, i.e., preview
segmentation, we propose Instance Re-Identification Flow to estimate main
properties of each instance (i.e., human/non-human, rigid/deformable,
known/unknown category) by propagating its preview mask to other frames. In the
second pass, i.e., contextual segmentation, we introduce multiple contextual
segmentation schemes. For human instance, we develop skeleton-guided
segmentation in a frame along with object flow to correct and refine the result
across frames. For non-human instance, if the instance has a wide variation in
appearance and belongs to known categories (which can be inferred from the
initial mask), we adopt instance segmentation. If the non-human instance is
nearly rigid, we train FCNs on synthesized images from the first frame of a
video sequence. In the final pass, i.e., guided segmentation, we develop a
novel fined-grained segmentation method on non-rectangular regions of interest
(ROIs). The natural-shaped ROI is generated by applying guided attention from
the neighbor frames of the current one to reduce the ambiguity in the
segmentation of different overlapping instances. Forward mask propagation is
followed by backward mask propagation to further restore missing instance
fragments due to re-appeared instances, fast motion, occlusion, or heavy
deformation. Finally, instances in each frame are merged based on their depth
values, together with human and non-human object interaction and rare instance
priority. Experiments conducted on the DAVIS Test-Challenge dataset demonstrate
the effectiveness of our proposed framework. We achieved the 3rd consistently
in the DAVIS Challenges 2017-2019 with 75.4%, 72.4%, and 78.4% in terms of
global score, region similarity, and contour accuracy, respectively.
- Abstract(参考訳): 本稿では,ビデオインスタンスの3パスセグメンテーションのためのcgs(contextual guided segmentation)フレームワークを提案する。
プレビューセグメンテーション(プレビューセグメンテーション)の第1パスでは、プレビューマスクを他のフレームに伝搬することにより、各インスタンスの主特性(人間/非人間、剛性/変形性、既知の/未知のカテゴリ)を推定するインスタンス再識別フローを提案する。
第2のパス、すなわちコンテキストセグメンテーションでは、複数のコンテキストセグメンテーションスキームを導入する。
人間の場合、骨組み誘導セグメンテーションとオブジェクトフローを併用して、フレーム間の結果を修正・改善する。
非人間的な例では、インスタンスが外観の幅広いバリエーションを持ち、既知のカテゴリに属している場合(初期マスクから推測できる)、インスタンスセグメンテーションを採用する。
非人間のインスタンスがほぼ剛性である場合、ビデオシーケンスの最初のフレームから合成画像にFCNを訓練する。
最終パス、すなわちガイド付きセグメンテーションでは、非矩形関心領域(ROIs)に関する新しい微粒化セグメンテーション法を開発する。
自然形ROIは、異なる重複するインスタンスのセグメンテーションにおけるあいまいさを低減するために、現在のフレームの隣のフレームからガイドされた注意を施すことによって生成される。
前方のマスクの伝播に続いて後方のマスクの伝播が続き、再出現したインスタンス、高速動作、閉塞、重変形による欠落したインスタンスフラグメントを復元する。
最後に、各フレームのインスタンスは、その深さ値に基づいてマージされる。
DAVIS Test-Challengeデータセットを用いて実験を行い,提案手法の有効性を実証した。
DAVISチャレンジ2017-2019では,世界得点,地域類似度,輪郭精度の点でそれぞれ75.4%,72.4%,78.4%の順調に3位となった。
関連論文リスト
- Consistent Video Instance Segmentation with Inter-Frame Recurrent
Attention [23.72098615213679]
ビデオインスタンスセグメンテーションは、各フレームのオブジェクトセグメンテーションマスクの予測と、複数のフレームでインスタンスを関連付けることを目的としている。
最近のエンドツーエンドビデオインスタンスセグメンテーション手法は、直接並列シーケンスデコード/予測フレームワークにおいて、オブジェクトセグメンテーションとインスタンスアソシエーションを一緒に行うことができる。
本稿では,隣接するフレームの時間的インスタンス一貫性とグローバルな時間的コンテキストの両方をモデル化するために,フレーム間リカレントアテンションを用いた一貫したエンドツーエンドビデオインスタンスセグメンテーションフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-14T17:22:55Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Human Instance Segmentation and Tracking via Data Association and
Single-stage Detector [17.46922710432633]
人間のビデオインスタンスのセグメンテーションは、人間の活動のコンピュータ理解において重要な役割を果たす。
現在のVISメソッドのほとんどはMask-RCNNフレームワークに基づいている。
単段検出器を用いた人間のビデオ・インスタンス・セグメンテーションのための新しい手法を開発した。
論文 参考訳(メタデータ) (2022-03-31T11:36:09Z) - SOLO: A Simple Framework for Instance Segmentation [84.00519148562606]
インスタンスカテゴリ"は、インスタンスの場所に応じて、インスタンス内の各ピクセルにカテゴリを割り当てる。
SOLO"は、強力なパフォーマンスを備えたインスタンスセグメンテーションのための、シンプルで、直接的で、高速なフレームワークです。
提案手法は, 高速化と精度の両面から, 実例分割の最先端結果を実現する。
論文 参考訳(メタデータ) (2021-06-30T09:56:54Z) - Prototypical Cross-Attention Networks for Multiple Object Tracking and
Segmentation [95.74244714914052]
複数のオブジェクトのトラッキングとセグメンテーションには、与えられたクラスのセットに属するオブジェクトを検出し、追跡し、セグメンテーションする必要がある。
オンライン上でリッチ・テンポラル情報を活用するプロトタイプ・クロス・アテンション・ネットワーク(PCAN)を提案する。
PCANは、Youtube-VISとBDD100Kデータセットで、現在のビデオインスタンス追跡とセグメンテーションコンテストの勝者を上回っている。
論文 参考訳(メタデータ) (2021-06-22T17:57:24Z) - Video Instance Segmentation with a Propose-Reduce Paradigm [68.59137660342326]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内の各フレームごとに定義されたクラスのすべてのインスタンスをセグメンテーションし、関連付けることを目的とする。
先行メソッドは通常、フレームまたはクリップのセグメンテーションを最初に取得し、追跡またはマッチングによって不完全な結果をマージします。
新しいパラダイムであるPropose-Reduceを提案し、入力ビデオの完全なシーケンスを1ステップで生成します。
論文 参考訳(メタデータ) (2021-03-25T10:58:36Z) - Instance and Panoptic Segmentation Using Conditional Convolutions [96.7275593916409]
本稿では,CondInst と呼ばれる,シンプルで効果的な光学的セグメンテーションフレームワークを提案する。
我々は、CondInstがインスタンス分割タスクと単眼セグメンテーションタスクの両方において精度と推論速度を向上できることを示す。
論文 参考訳(メタデータ) (2021-02-05T06:57:02Z) - Unifying Instance and Panoptic Segmentation with Dynamic Rank-1
Convolutions [109.2706837177222]
DR1Maskは、インスタンスとセマンティックセグメンテーションの両方で共有機能マップを利用する最初のパノプティクスセグメンテーションフレームワークである。
副産物として、DR1Maskは従来の最先端のインスタンスセグメンテーションネットワークであるBlendMaskよりも10%高速で1ポイント精度が高い。
論文 参考訳(メタデータ) (2020-11-19T12:42:10Z) - Learning Panoptic Segmentation from Instance Contours [9.347742071428918]
Panopticpixel は、背景 (stuff) とオブジェクト (things) のインスタンスをピクセルレベルで理解することを目的としている。
セマンティックセグメンテーション(レベル分類)とインスタンスセグメンテーションの別々のタスクを組み合わせて、単一の統合されたシーン理解タスクを構築する。
セマンティックセグメンテーションとインスタンス輪郭からインスタンスセグメンテーションを学習する完全畳み込みニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-16T03:05:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。