論文の概要: Video Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2006.11339v1
- Date: Fri, 19 Jun 2020 19:35:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 05:00:51.717827
- Title: Video Panoptic Segmentation
- Title(参考訳): ビデオパンオプティカルセグメンテーション
- Authors: Dahun Kim, Sanghyun Woo, Joon-Young Lee, In So Kweon
- Abstract要約: 我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
- 参考スコア(独自算出の注目度): 117.08520543864054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoptic segmentation has become a new standard of visual recognition task by
unifying previous semantic segmentation and instance segmentation tasks in
concert. In this paper, we propose and explore a new video extension of this
task, called video panoptic segmentation. The task requires generating
consistent panoptic segmentation as well as an association of instance ids
across video frames. To invigorate research on this new task, we present two
types of video panoptic datasets. The first is a re-organization of the
synthetic VIPER dataset into the video panoptic format to exploit its
large-scale pixel annotations. The second is a temporal extension on the
Cityscapes val. set, by providing new video panoptic annotations
(Cityscapes-VPS). Moreover, we propose a novel video panoptic segmentation
network (VPSNet) which jointly predicts object classes, bounding boxes, masks,
instance id tracking, and semantic segmentation in video frames. To provide
appropriate metrics for this task, we propose a video panoptic quality (VPQ)
metric and evaluate our method and several other baselines. Experimental
results demonstrate the effectiveness of the presented two datasets. We achieve
state-of-the-art results in image PQ on Cityscapes and also in VPQ on
Cityscapes-VPS and VIPER datasets. The datasets and code are made publicly
available.
- Abstract(参考訳): panoptic segmentationは、以前のセマンティックセグメンテーションとインスタンスセグメンテーションタスクを合体させることで、視覚認識タスクの新たな標準となった。
本稿では,ビデオパノプティカルセグメンテーションと呼ばれる,この課題の新たなビデオ拡張を提案し,検討する。
このタスクは、一貫した汎視的セグメンテーションと、ビデオフレーム間のインスタンスIDの関連を生成する必要がある。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
1つ目は、合成VIPERデータセットをビデオパノプティクスフォーマットに再編成し、その大規模なピクセルアノテーションを活用することである。
2つ目はCityscapes valの時間延長である。
新しいvideo panopticアノテーション(cityscapes-vps)を提供する。
さらに,ビデオフレームのオブジェクトクラス,バウンディングボックス,マスク,インスタンスid追跡,意味セグメンテーションを共同で予測する新しいビデオパオプティクスセグメンテーションネットワーク(vpsnet)を提案する。
そこで本研究では,ビデオパノプティクス(VPQ)メトリクスを提案し,提案手法と他のいくつかのベースラインを評価した。
実験の結果,二つのデータセットの有効性が示された。
我々は、CityscapesのイメージPQおよびCityscapes-VPSおよびVIPERデータセットのVPQにおいて、最先端の結果を達成する。
データセットとコードは公開されています。
関連論文リスト
- 2nd Place Solution for PVUW Challenge 2024: Video Panoptic Segmentation [12.274092278786966]
ビデオパノプティクス(VPS)は、ビデオ内のすべてのオブジェクトを同時に分類、追跡、セグメンテーションすることを目的としている。
本稿では,ロバストな統合ビデオパノプティクスセグメンテーションソリューションを提案する。
本稿では,VPQ スコア56.36 と 57.12 の最先端性能を開発・試験段階で達成する。
論文 参考訳(メタデータ) (2024-06-01T17:03:16Z) - DVIS++: Improved Decoupled Framework for Universal Video Segmentation [30.703276476607545]
我々は,最初のオープン語彙ユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
CLIPとDVIS++を統合することで、最初のオープン語彙のユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
論文 参考訳(メタデータ) (2023-12-20T03:01:33Z) - Towards Open-Vocabulary Video Instance Segmentation [61.469232166803465]
Video Instanceは、ビデオ内のオブジェクトをクローズドなトレーニングカテゴリから分類し分類することを目的としている。
本稿では,オープンなカテゴリからビデオ内のオブジェクトを分割,追跡,分類することを目的とした,Open-Vocabulary Video Instanceの新たなタスクを紹介する。
Open-Vocabulary VISをベンチマークするために、我々は1,196の多様なカテゴリから、よく注釈付けされたオブジェクトを含む大語彙ビデオインスタンスデータセット(LV-VIS)を収集します。
論文 参考訳(メタデータ) (2023-04-04T11:25:23Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Slot-VPS: Object-centric Representation Learning for Video Panoptic
Segmentation [29.454785969084384]
Video Panoptic (VPS) は、各ピクセルにクラスラベルを割り当てることを目的としている。
このタスクの最初のエンドツーエンドフレームワークであるSlot-VPSを紹介します。
論文 参考訳(メタデータ) (2021-12-16T15:12:22Z) - An End-to-End Trainable Video Panoptic Segmentation Method
usingTransformers [0.11714813224840924]
本稿では,新しい研究領域であるビデオパノプティカルセグメンテーション問題に取り組むアルゴリズムを提案する。
提案するビデオパノプティクス分割アルゴリズムはトランスフォーマーを用いて,複数のビデオフレームを入力してエンドツーエンドでトレーニングすることができる。
この方法は、KITTI-STEPデータセットで57.81%、MOTChallenge-STEPデータセットで31.8%をアーカイブした。
論文 参考訳(メタデータ) (2021-10-08T10:13:37Z) - Merging Tasks for Video Panoptic Segmentation [0.0]
ビデオパノプティカルセグメンテーション(VPS)は、最近導入されたコンピュータビジョンタスクであり、ビデオ内のすべてのピクセルを分類し、追跡する必要がある。
ビデオパノプティクスのセグメンテーションを理解するために、まず最初に、セマンティクスとトラッキングを別途重視する構成課題について研究する。
カスタマイズされたデータセットのトレーニングを必要としない2つのデータ駆動アプローチが、それを解決するために選択される。
論文 参考訳(メタデータ) (2021-07-10T08:46:42Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z) - STEP: Segmenting and Tracking Every Pixel [107.23184053133636]
新しいベンチマークを示す: Segmenting and Tracking Every Pixel (STEP)
私たちの仕事は、空間領域と時間領域の両方で密な解釈を必要とする現実世界の設定で、このタスクをターゲットとする最初のものです。
性能を測定するために,新しい評価指標と追跡品質(STQ)を提案する。
論文 参考訳(メタデータ) (2021-02-23T18:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。