論文の概要: 2nd Place Solution for PVUW Challenge 2024: Video Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2406.00500v1
- Date: Sat, 1 Jun 2024 17:03:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 06:45:16.803976
- Title: 2nd Place Solution for PVUW Challenge 2024: Video Panoptic Segmentation
- Title(参考訳): 第2回PVUWチャレンジ2024:ビデオパノプティカルセグメンテーション
- Authors: Biao Wu, Diankai Zhang, Si Gao, Chengjian Zheng, Shaoli Liu, Ning Wang,
- Abstract要約: ビデオパノプティクス(VPS)は、ビデオ内のすべてのオブジェクトを同時に分類、追跡、セグメンテーションすることを目的としている。
本稿では,ロバストな統合ビデオパノプティクスセグメンテーションソリューションを提案する。
本稿では,VPQ スコア56.36 と 57.12 の最先端性能を開発・試験段階で達成する。
- 参考スコア(独自算出の注目度): 12.274092278786966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Panoptic Segmentation (VPS) is a challenging task that is extends from image panoptic segmentation.VPS aims to simultaneously classify, track, segment all objects in a video, including both things and stuff. Due to its wide application in many downstream tasks such as video understanding, video editing, and autonomous driving. In order to deal with the task of video panoptic segmentation in the wild, we propose a robust integrated video panoptic segmentation solution. We use DVIS++ framework as our baseline to generate the initial masks. Then,we add an additional image semantic segmentation model to further improve the performance of semantic classes.Finally, our method achieves state-of-the-art performance with a VPQ score of 56.36 and 57.12 in the development and test phases, respectively, and ultimately ranked 2nd in the VPS track of the PVUW Challenge at CVPR2024.
- Abstract(参考訳): ビデオパノプティクスセグメンテーション(VPS)は、画像パノプティクスセグメンテーションから拡張される難しいタスクである。VPSは、ビデオ内のすべてのオブジェクトを同時に分類し、追跡し、セグメンテーションすることを目的としており、これには物と物の両方が含まれる。
ビデオ理解、ビデオ編集、自律運転など、多くの下流タスクに広く応用されているためである。
野生におけるビデオパノプティクスセグメンテーションの課題に対処するために,ロバストな統合ビデオパノプティクスセグメンテーションソリューションを提案する。
DVIS++フレームワークをベースラインとして使い、初期マスクを生成します。
そこで,本手法では,開発段階およびテスト段階において,VPQスコア56.36と57.12と,CVPR2024におけるPVUWチャレンジのVPSトラックの2位にランクインした。
関連論文リスト
- VISA: Reasoning Video Object Segmentation via Large Language Models [64.33167989521357]
我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。
このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。
本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
論文 参考訳(メタデータ) (2024-07-16T02:29:29Z) - 1st Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation [81.50620771207329]
ビデオオブジェクトセグメンテーション(RVOS)における静的支配データとフレームサンプリングの有効性について検討する。
本手法は,競技段階でのJ&Fスコア0.5447を達成し,PVUWチャレンジのMeViSトラックで1位となった。
論文 参考訳(メタデータ) (2024-06-11T08:05:26Z) - Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - 1st Place Winner of the 2024 Pixel-level Video Understanding in the Wild (CVPR'24 PVUW) Challenge in Video Panoptic Segmentation and Best Long Video Consistency of Video Semantic Segmentation [11.331198234997714]
PVUW CVPR 2024(英語版)による第3のPixelレベルのビデオ理解は、映像理解における最先端技術の実現を目的としている。
本稿ではPVUW'24 VPSチャレンジで1位を獲得した私たちの研究成果を詳述する。
我々のソリューションは、巨大なビジョントランスフォーマーモデル(DINOv2 ViT-g)と、実証されたマルチステージデカップリングビデオインスタンスフレームワークの肩の上にあります。
論文 参考訳(メタデータ) (2024-06-08T04:43:08Z) - 3rd Place Solution for PVUW Challenge 2024: Video Panoptic Segmentation [19.071113992267826]
追加の手法によって補足されたクエリワイドアンサンブルを中心にした包括的アプローチを導入する。
提案手法はVIPSegテストセットのVPQスコア57.01を達成し,第3回Pixelレベルビデオ理解チャレンジのVPSトラックで3位にランクインした。
論文 参考訳(メタデータ) (2024-06-06T12:22:56Z) - 3rd Place Solution for PVUW Challenge 2023: Video Panoptic Segmentation [10.04177400017471]
本稿では,ロバストな統合ビデオパノプティクスセグメンテーションソリューションを提案する。
私たちのソリューションでは、セマンティックターゲットとインスタンスターゲットの両方をクエリのセットとして表現しています。
次に、これらのクエリとニューラルネットワークによって抽出されたビデオ機能を組み合わせて、セグメンテーションマスクを予測する。
論文 参考訳(メタデータ) (2023-06-11T19:44:40Z) - 1st Place Solution for PVUW Challenge 2023: Video Panoptic Segmentation [25.235404527487784]
ビデオパノプティクスのセグメンテーションは、多くのダウンストリームアプリケーションの基礎となる難しいタスクである。
DVISが提案するデカップリング戦略は,時間情報をより効果的に活用できると考えている。
第2回PVUWチャレンジのVPSトラックでは,それぞれ51.4と53.7のVPQスコアを達成し,第2回PVUWチャレンジのVPSトラックで第1位となった。
論文 参考訳(メタデータ) (2023-06-07T01:24:48Z) - 3rd Place Solution for PVUW2023 VSS Track: A Large Model for Semantic
Segmentation on VSPW [68.56017675820897]
本稿では,PVUW2023 VSSトラックの3位解について紹介する。
ビデオセマンティックセグメンテーションの課題を解決するために,様々な画像レベルの視覚的バックボーンとセグメンテーションヘッドを探索した。
論文 参考訳(メタデータ) (2023-06-04T07:50:38Z) - Mask2Former for Video Instance Segmentation [172.10001340104515]
Mask2Formerは、アーキテクチャや損失、さらにはトレーニングパイプラインを変更することなく、ビデオセグメンテーションインスタンス上で最先端のパフォーマンスを達成する。
本稿では,3次元セグメント化ボリュームを直接予測することにより,映像セグメント化を自明に一般化するユニバーサル画像セグメント化アーキテクチャを示す。
論文 参考訳(メタデータ) (2021-12-20T18:59:59Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。