論文の概要: 1st Place Winner of the 2024 Pixel-level Video Understanding in the Wild (CVPR'24 PVUW) Challenge in Video Panoptic Segmentation and Best Long Video Consistency of Video Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2406.05352v1
- Date: Sat, 8 Jun 2024 04:43:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 20:14:35.806577
- Title: 1st Place Winner of the 2024 Pixel-level Video Understanding in the Wild (CVPR'24 PVUW) Challenge in Video Panoptic Segmentation and Best Long Video Consistency of Video Semantic Segmentation
- Title(参考訳): ビデオパノプティカルセマンティックセマンティックセマンティックセマンティックセマンティクスにおける2024年画素レベルのビデオ理解(CVPR'24PVUW)チャレンジの第1位
- Authors: Qingfeng Liu, Mostafa El-Khamy, Kee-Bong Song,
- Abstract要約: PVUW CVPR 2024(英語版)による第3のPixelレベルのビデオ理解は、映像理解における最先端技術の実現を目的としている。
本稿ではPVUW'24 VPSチャレンジで1位を獲得した私たちの研究成果を詳述する。
我々のソリューションは、巨大なビジョントランスフォーマーモデル(DINOv2 ViT-g)と、実証されたマルチステージデカップリングビデオインスタンスフレームワークの肩の上にあります。
- 参考スコア(独自算出の注目度): 11.331198234997714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The third Pixel-level Video Understanding in the Wild (PVUW CVPR 2024) challenge aims to advance the state of art in video understanding through benchmarking Video Panoptic Segmentation (VPS) and Video Semantic Segmentation (VSS) on challenging videos and scenes introduced in the large-scale Video Panoptic Segmentation in the Wild (VIPSeg) test set and the large-scale Video Scene Parsing in the Wild (VSPW) test set, respectively. This paper details our research work that achieved the 1st place winner in the PVUW'24 VPS challenge, establishing state of art results in all metrics, including the Video Panoptic Quality (VPQ) and Segmentation and Tracking Quality (STQ). With minor fine-tuning our approach also achieved the 3rd place in the PVUW'24 VSS challenge ranked by the mIoU (mean intersection over union) metric and the first place ranked by the VC16 (16-frame video consistency) metric. Our winning solution stands on the shoulders of giant foundational vision transformer model (DINOv2 ViT-g) and proven multi-stage Decoupled Video Instance Segmentation (DVIS) frameworks for video understanding.
- Abstract(参考訳): 3つ目のPixelレベルのビデオ理解(PVUW CVPR 2024)チャレンジは、ビデオパノプティクスセグメンテーション(VPS)とビデオセマンティックセグメンテーション(VSS)を、それぞれ大規模なビデオパノプティクスセグメンテーション・イン・ザ・ワイルド(VIPSeg)テストセットと大規模なビデオシーンパーシング・イン・ザ・ワイルド(VSPW)テストセットで導入された挑戦的なビデオとシーンについてベンチマークすることで、ビデオ理解の最先端化を目指している。
本稿では、PVUW'24 VPSチャレンジで1位を獲得した私たちの研究成果を詳述し、ビデオパノプティクティ(VPQ)やセグメンテーション・トラッキング品質(STQ)など、すべての指標において、アート結果の状態を確立する。
マイナーな微調整によって、PVUW'24 VSSチャレンジではmIoUメトリックが3位、VC16メトリックが1位になった。
我々の勝利したソリューションは、ビデオ理解のための巨大な基盤視覚トランスフォーマーモデル(DINOv2 ViT-g)とマルチステージデカップリングビデオインスタンスセグメンテーション(DVIS)フレームワークの肩の上にあります。
関連論文リスト
- LAVIB: A Large-scale Video Interpolation Benchmark [58.194606275650095]
LAVIBは、Webから自動パイプラインを通じてソースされる高解像度ビデオの大規模なコレクションで構成されている。
各ビデオの運動の大きさ、輝度条件、フレームのシャープネス、コントラストについてメトリクスが計算される。
LAVIBには17KのUltra-HDビデオから283Kのクリップが含まれ、77.6時間に及ぶ。
論文 参考訳(メタデータ) (2024-06-14T06:44:01Z) - 1st Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation [81.50620771207329]
ビデオオブジェクトセグメンテーション(RVOS)における静的支配データとフレームサンプリングの有効性について検討する。
本手法は,競技段階でのJ&Fスコア0.5447を達成し,PVUWチャレンジのMeViSトラックで1位となった。
論文 参考訳(メタデータ) (2024-06-11T08:05:26Z) - 3rd Place Solution for PVUW Challenge 2024: Video Panoptic Segmentation [19.071113992267826]
追加の手法によって補足されたクエリワイドアンサンブルを中心にした包括的アプローチを導入する。
提案手法はVIPSegテストセットのVPQスコア57.01を達成し,第3回Pixelレベルビデオ理解チャレンジのVPSトラックで3位にランクインした。
論文 参考訳(メタデータ) (2024-06-06T12:22:56Z) - 2nd Place Solution for PVUW Challenge 2024: Video Panoptic Segmentation [12.274092278786966]
ビデオパノプティクス(VPS)は、ビデオ内のすべてのオブジェクトを同時に分類、追跡、セグメンテーションすることを目的としている。
本稿では,ロバストな統合ビデオパノプティクスセグメンテーションソリューションを提案する。
本稿では,VPQ スコア56.36 と 57.12 の最先端性能を開発・試験段階で達成する。
論文 参考訳(メタデータ) (2024-06-01T17:03:16Z) - VideoPrism: A Foundational Visual Encoder for Video Understanding [90.01845485201746]
VideoPrismは、単一の凍結モデルで多様なビデオ理解タスクに取り組む汎用ビデオエンコーダである。
我々は,36Mの高品質ビデオキャプチャ対と582Mの動画クリップを含む異種コーパス上で,VoicePrismを事前訓練した。
我々は、Webビデオ質問応答から科学用CVまで、ビデオ理解タスクの4つのグループでビデオPrismを広範囲にテストし、33の動画理解ベンチマークのうち31で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-02-20T18:29:49Z) - NTIRE 2023 Quality Assessment of Video Enhancement Challenge [97.809937484099]
NTIRE 2023 Quality Assessment of Video Enhancement Challengeについて報告する。
課題は、ビデオ処理分野における大きな課題、すなわち、強化されたビデオに対するビデオ品質評価(VQA)に対処することである。
参加者数は167名。
論文 参考訳(メタデータ) (2023-07-19T02:33:42Z) - 1st Place Solution for PVUW Challenge 2023: Video Panoptic Segmentation [25.235404527487784]
ビデオパノプティクスのセグメンテーションは、多くのダウンストリームアプリケーションの基礎となる難しいタスクである。
DVISが提案するデカップリング戦略は,時間情報をより効果的に活用できると考えている。
第2回PVUWチャレンジのVPSトラックでは,それぞれ51.4と53.7のVPQスコアを達成し,第2回PVUWチャレンジのVPSトラックで第1位となった。
論文 参考訳(メタデータ) (2023-06-07T01:24:48Z) - 3rd Place Solution for PVUW2023 VSS Track: A Large Model for Semantic
Segmentation on VSPW [68.56017675820897]
本稿では,PVUW2023 VSSトラックの3位解について紹介する。
ビデオセマンティックセグメンテーションの課題を解決するために,様々な画像レベルの視覚的バックボーンとセグメンテーションヘッドを探索した。
論文 参考訳(メタデータ) (2023-06-04T07:50:38Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。