論文の概要: 1st Place Solution for PVUW Challenge 2023: Video Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2306.04091v2
- Date: Thu, 8 Jun 2023 08:19:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 10:44:39.466456
- Title: 1st Place Solution for PVUW Challenge 2023: Video Panoptic Segmentation
- Title(参考訳): 1位pvuw challenge 2023: video panoptic segmentation
- Authors: Tao Zhang and Xingye Tian and Haoran Wei and Yu Wu and Shunping Ji and
Xuebo Wang and Xin Tao and Yuan Zhang and Pengfei Wan
- Abstract要約: ビデオパノプティクスのセグメンテーションは、多くのダウンストリームアプリケーションの基礎となる難しいタスクである。
DVISが提案するデカップリング戦略は,時間情報をより効果的に活用できると考えている。
第2回PVUWチャレンジのVPSトラックでは,それぞれ51.4と53.7のVPQスコアを達成し,第2回PVUWチャレンジのVPSトラックで第1位となった。
- 参考スコア(独自算出の注目度): 25.235404527487784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video panoptic segmentation is a challenging task that serves as the
cornerstone of numerous downstream applications, including video editing and
autonomous driving. We believe that the decoupling strategy proposed by DVIS
enables more effective utilization of temporal information for both "thing" and
"stuff" objects. In this report, we successfully validated the effectiveness of
the decoupling strategy in video panoptic segmentation. Finally, our method
achieved a VPQ score of 51.4 and 53.7 in the development and test phases,
respectively, and ultimately ranked 1st in the VPS track of the 2nd PVUW
Challenge. The code is available at https://github.com/zhang-tao-whu/DVIS
- Abstract(参考訳): ビデオのパンオプティカルセグメンテーションは、ビデオ編集や自動運転など、多くの下流アプリケーションの基礎となる課題である。
dvisによって提案された分離戦略は、"thing"と"stuff"の両方のオブジェクトに対して、より効果的な時間情報の活用を可能にすると信じている。
本報告では,ビデオパノプティックセグメンテーションにおけるデカップリング戦略の有効性を検証した。
最後に,第2回PVUWチャレンジのVPSトラックでそれぞれ51.4と53.7のVPQスコアを達成し,最終的に第2回PVUWチャレンジのVPSトラックで1位となった。
コードはhttps://github.com/zhang-tao-whu/dvisで入手できる。
関連論文リスト
- 1st Place Solution for the 5th LSVOS Challenge: Video Instance
Segmentation [25.587080499097425]
我々は,SOTA VIS法,DVISのさらなる改良について述べる。
トレーニング可能なトラッカーに対して,より安定かつ正確なオブジェクト追跡を,複雑なビデオや長時間の動画で実現できるように,デノベーショントレーニング戦略を導入する。
本手法は,開発段階で57.9 APと56.0 APをそれぞれ達成し,第5回LSVOSチャレンジのVISトラックで第1位となった。
論文 参考訳(メタデータ) (2023-08-28T08:15:43Z) - A Solution to CVPR'2023 AQTC Challenge: Video Alignment for Multi-Step
Inference [51.26551806938455]
Egocentric AssistantのためのAQTC(Affordance-centric Question-driven Task Completion)は、画期的なシナリオを導入している。
マルチステップ推論を改善するために,映像アライメント向上のためのソリューションを提案する。
CVPR'2023 AQTCでは2位であった。
論文 参考訳(メタデータ) (2023-06-26T04:19:33Z) - 3rd Place Solution for PVUW Challenge 2023: Video Panoptic Segmentation [10.04177400017471]
本稿では,ロバストな統合ビデオパノプティクスセグメンテーションソリューションを提案する。
私たちのソリューションでは、セマンティックターゲットとインスタンスターゲットの両方をクエリのセットとして表現しています。
次に、これらのクエリとニューラルネットワークによって抽出されたビデオ機能を組み合わせて、セグメンテーションマスクを予測する。
論文 参考訳(メタデータ) (2023-06-11T19:44:40Z) - 3rd Place Solution for PVUW2023 VSS Track: A Large Model for Semantic
Segmentation on VSPW [68.56017675820897]
本稿では,PVUW2023 VSSトラックの3位解について紹介する。
ビデオセマンティックセグメンテーションの課題を解決するために,様々な画像レベルの視覚的バックボーンとセグメンテーションヘッドを探索した。
論文 参考訳(メタデータ) (2023-06-04T07:50:38Z) - The Runner-up Solution for YouTube-VIS Long Video Challenge 2022 [72.13080661144761]
この課題に対して,提案したオンラインビデオインスタンス分割方式IDOLを採用した。
擬似ラベルを使用して、コントラスト学習をさらに支援し、時間的に一貫したインスタンスの埋め込みを得る。
提案手法は、YouTube-VIS 2022長ビデオデータセット上で40.2 APを取得し、この課題において第2位にランクされた。
論文 参考訳(メタデータ) (2022-11-18T01:40:59Z) - STC: Spatio-Temporal Contrastive Learning for Video Instance
Segmentation [47.28515170195206]
ビデオインスタンス(VIS)は、ビデオ内の分類、セグメンテーション、インスタンスアソシエーションを同時に必要とするタスクである。
最近のVISアプローチは、RoI関連の操作や3D畳み込みなど、この目標を達成するために洗練されたパイプラインに依存している。
本稿では,インスタンスセグメンテーション手法であるConInstをベースとした,シンプルで効率的な単一ステージVISフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-08T09:34:26Z) - PolyphonicFormer: Unified Query Learning for Depth-aware Video Panoptic
Segmentation [90.26723865198348]
DVPSタスクで全てのサブタスクを統一する視覚変換器であるPolyphonicFormerを提案する。
提案手法は,問合せ学習による深度推定とパノプティックセグメンテーションの関係について検討する。
ICCV-2021 BMTT Challenge video + depth trackで1位にランクインした。
論文 参考訳(メタデータ) (2021-12-05T14:31:47Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。