論文の概要: Merging Tasks for Video Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2108.04223v1
- Date: Sat, 10 Jul 2021 08:46:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-15 16:44:40.829817
- Title: Merging Tasks for Video Panoptic Segmentation
- Title(参考訳): ビデオパニックセグメンテーションのためのマージタスク
- Authors: Jake Rap, Panagiotis Meletis
- Abstract要約: ビデオパノプティカルセグメンテーション(VPS)は、最近導入されたコンピュータビジョンタスクであり、ビデオ内のすべてのピクセルを分類し、追跡する必要がある。
ビデオパノプティクスのセグメンテーションを理解するために、まず最初に、セマンティクスとトラッキングを別途重視する構成課題について研究する。
カスタマイズされたデータセットのトレーニングを必要としない2つのデータ駆動アプローチが、それを解決するために選択される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, the task of video panoptic segmentation is studied and two
different methods to solve the task will be proposed. Video panoptic
segmentation (VPS) is a recently introduced computer vision task that requires
classifying and tracking every pixel in a given video. The nature of this task
makes the cost of annotating datasets for it prohibiting. To understand video
panoptic segmentation, first, earlier introduced constituent tasks that focus
on semantics and tracking separately will be researched. Thereafter, two
data-driven approaches which do not require training on a tailored VPS dataset
will be selected to solve it. The first approach will show how a model for
video panoptic segmentation can be built by heuristically fusing the outputs of
a pre-trained semantic segmentation model and a pre-trained multi-object
tracking model. This can be desired if one wants to easily extend the
capabilities of either model. The second approach will counter some of the
shortcomings of the first approach by building on top of a shared neural
network backbone with task-specific heads. This network is designed for
panoptic segmentation and will be extended by a mask propagation module to link
instance masks across time, yielding the video panoptic segmentation format.
- Abstract(参考訳): 本稿では,ビデオパノプティカルセグメンテーションの課題について検討し,その課題を解決するための2つの方法を提案する。
ビデオパノプティカルセグメンテーション(VPS)は、最近導入されたコンピュータビジョンタスクであり、ビデオ内のすべてのピクセルを分類し、追跡する必要がある。
このタスクの性質は、禁止されるデータセットに注釈を付けるコストを発生させる。
ビデオのパンオプティカルセグメンテーションを理解するために、最初に、セマンティクスとトラッキングを別々に重視する構成タスクを導入した。
その後、適切なVPSデータセットのトレーニングを必要としない2つのデータ駆動アプローチが選択される。
最初のアプローチでは、事前訓練されたセマンティックセグメンテーションモデルと事前訓練されたマルチオブジェクト追跡モデルの出力をヒューリスティックに融合することにより、ビデオパノタイプセグメンテーションのモデルを構築する方法を示す。
どちらのモデルの能力も容易に拡張したい場合、これは望まれる。
第2のアプローチは、タスク固有の頭を持つ共有ニューラルネットワークバックボーン上に構築することで、最初のアプローチの欠点を克服する。
このネットワークはパンオプティカルセグメンテーション用に設計されており、マスク伝搬モジュールによって時間にわたってインスタンスマスクをリンクするように拡張され、ビデオパンオプティカルセグメンテーションフォーマットとなる。
関連論文リスト
- Tracking Anything with Decoupled Video Segmentation [87.07258378407289]
我々はデカップリングビデオセグメンテーションアプローチ(DEVA)を開発した。
タスク固有のイメージレベルセグメンテーションと、クラス/タスク非依存の双方向の時間的伝搬で構成されている。
この分離された定式化は、複数のデータスカースタスクにおけるエンドツーエンドのアプローチと良好に比較できることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:59:41Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - An End-to-End Trainable Video Panoptic Segmentation Method
usingTransformers [0.11714813224840924]
本稿では,新しい研究領域であるビデオパノプティカルセグメンテーション問題に取り組むアルゴリズムを提案する。
提案するビデオパノプティクス分割アルゴリズムはトランスフォーマーを用いて,複数のビデオフレームを入力してエンドツーエンドでトレーニングすることができる。
この方法は、KITTI-STEPデータセットで57.81%、MOTChallenge-STEPデータセットで31.8%をアーカイブした。
論文 参考訳(メタデータ) (2021-10-08T10:13:37Z) - Prototypical Cross-Attention Networks for Multiple Object Tracking and
Segmentation [95.74244714914052]
複数のオブジェクトのトラッキングとセグメンテーションには、与えられたクラスのセットに属するオブジェクトを検出し、追跡し、セグメンテーションする必要がある。
オンライン上でリッチ・テンポラル情報を活用するプロトタイプ・クロス・アテンション・ネットワーク(PCAN)を提案する。
PCANは、Youtube-VISとBDD100Kデータセットで、現在のビデオインスタンス追跡とセグメンテーションコンテストの勝者を上回っている。
論文 参考訳(メタデータ) (2021-06-22T17:57:24Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z) - CRNet: Cross-Reference Networks for Few-Shot Segmentation [59.85183776573642]
少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。
相互参照機構により、我々のネットワークは2つの画像に共起する物体をよりよく見つけることができる。
PASCAL VOC 2012データセットの実験は、我々のネットワークが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2020-03-24T04:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。