論文の概要: 3rd Place Solution for PVUW Challenge 2023: Video Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2306.06753v1
- Date: Sun, 11 Jun 2023 19:44:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 16:57:44.139913
- Title: 3rd Place Solution for PVUW Challenge 2023: Video Panoptic Segmentation
- Title(参考訳): pvuw challenge 2023の3位解:ビデオパノミックセグメンテーション
- Authors: Jinming Su, Wangwang Yang, Junfeng Luo and Xiaolin Wei
- Abstract要約: 本稿では,ロバストな統合ビデオパノプティクスセグメンテーションソリューションを提案する。
私たちのソリューションでは、セマンティックターゲットとインスタンスターゲットの両方をクエリのセットとして表現しています。
次に、これらのクエリとニューラルネットワークによって抽出されたビデオ機能を組み合わせて、セグメンテーションマスクを予測する。
- 参考スコア(独自算出の注目度): 10.04177400017471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In order to deal with the task of video panoptic segmentation in the wild, we
propose a robust integrated video panoptic segmentation solution. In our
solution, we regard the video panoptic segmentation task as a segmentation
target querying task, represent both semantic and instance targets as a set of
queries, and then combine these queries with video features extracted by neural
networks to predict segmentation masks. In order to improve the learning
accuracy and convergence speed of the solution, we add additional tasks of
video semantic segmentation and video instance segmentation for joint training.
In addition, we also add an additional image semantic segmentation model to
further improve the performance of semantic classes. In addition, we also add
some additional operations to improve the robustness of the model. Extensive
experiments on the VIPSeg dataset show that the proposed solution achieves
state-of-the-art performance with 50.04\% VPQ on the VIPSeg test set, which is
3rd place on the video panoptic segmentation track of the PVUW Challenge 2023.
- Abstract(参考訳): 野生におけるビデオパノプティクスセグメンテーションの課題に対処するために,ロバストな統合ビデオパノプティクスセグメンテーションソリューションを提案する。
提案手法では,ビデオ汎視的セグメンテーションタスクをセグメンテーションターゲットクエリータスクとみなし,セグメンテーションターゲットとインスタンスターゲットの両方をクエリーの集合として表現し,これらのクエリをニューラルネットワークによって抽出されたビデオ特徴と組み合わせてセグメンテーションマスクを予測する。
解の学習精度と収束速度を改善するため,共同学習のためのビデオセマンティックセグメンテーションとビデオインスタンスセグメンテーションのタスクを追加する。
さらに、セマンティッククラスのパフォーマンスをさらに向上させるために、イメージセマンティックセグメンテーションモデルを追加しました。
さらに、モデルの堅牢性を改善するために、いくつかの追加操作も追加します。
VIPSegデータセットの大規模な実験により,提案手法はVIPSegテストセット上で50.04\%のVPQで最先端のパフォーマンスを達成し,PVUW Challenge 2023のビデオパノプティクスセグメンテーショントラックでは3位となった。
関連論文リスト
- 3rd Place Solution for PVUW Challenge 2024: Video Panoptic Segmentation [19.071113992267826]
追加の手法によって補足されたクエリワイドアンサンブルを中心にした包括的アプローチを導入する。
提案手法はVIPSegテストセットのVPQスコア57.01を達成し,第3回Pixelレベルビデオ理解チャレンジのVPSトラックで3位にランクインした。
論文 参考訳(メタデータ) (2024-06-06T12:22:56Z) - 3rd Place Solution for MOSE Track in CVPR 2024 PVUW workshop: Complex Video Object Segmentation [63.199793919573295]
ビデオオブジェクト(VOS)はコンピュータビジョンにおいて重要なタスクであり、ビデオフレーム間の背景から前景オブジェクトを区別することに焦点を当てている。
我々の研究はCutieモデルからインスピレーションを得ており、オブジェクトメモリ、メモリフレームの総数、および入力解像度がセグメンテーション性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-06T00:56:25Z) - 2nd Place Solution for PVUW Challenge 2024: Video Panoptic Segmentation [12.274092278786966]
ビデオパノプティクス(VPS)は、ビデオ内のすべてのオブジェクトを同時に分類、追跡、セグメンテーションすることを目的としている。
本稿では,ロバストな統合ビデオパノプティクスセグメンテーションソリューションを提案する。
本稿では,VPQ スコア56.36 と 57.12 の最先端性能を開発・試験段階で達成する。
論文 参考訳(メタデータ) (2024-06-01T17:03:16Z) - What is Point Supervision Worth in Video Instance Segmentation? [119.71921319637748]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的とした、難しいビジョンタスクである。
トレーニング中、ビデオフレーム内の各オブジェクトについて、人間のアノテーションを1点に減らし、完全に教師されたモデルに近い高品質なマスク予測を得る。
3つのVISベンチマークに関する総合的な実験は、提案フレームワークの競合性能を示し、完全に教師付きされた手法にほぼ一致する。
論文 参考訳(メタデータ) (2024-04-01T17:38:25Z) - Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain
Adaptation [74.51546366251753]
ビデオトピックセグメンテーションは、ビデオの基礎となる粗い粒度のセマンティック構造を明らかにする。
ビデオの書き起こしとフレームの両方を利用するマルチモーダルなビデオトピックセグメンタを提案する。
提案手法は, 精度と転送性の両方の観点から, ベースライン法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-11-30T21:59:05Z) - 3rd Place Solution for PVUW2023 VSS Track: A Large Model for Semantic
Segmentation on VSPW [68.56017675820897]
本稿では,PVUW2023 VSSトラックの3位解について紹介する。
ビデオセマンティックセグメンテーションの課題を解決するために,様々な画像レベルの視覚的バックボーンとセグメンテーションヘッドを探索した。
論文 参考訳(メタデータ) (2023-06-04T07:50:38Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z) - An End-to-End Trainable Video Panoptic Segmentation Method
usingTransformers [0.11714813224840924]
本稿では,新しい研究領域であるビデオパノプティカルセグメンテーション問題に取り組むアルゴリズムを提案する。
提案するビデオパノプティクス分割アルゴリズムはトランスフォーマーを用いて,複数のビデオフレームを入力してエンドツーエンドでトレーニングすることができる。
この方法は、KITTI-STEPデータセットで57.81%、MOTChallenge-STEPデータセットで31.8%をアーカイブした。
論文 参考訳(メタデータ) (2021-10-08T10:13:37Z) - Merging Tasks for Video Panoptic Segmentation [0.0]
ビデオパノプティカルセグメンテーション(VPS)は、最近導入されたコンピュータビジョンタスクであり、ビデオ内のすべてのピクセルを分類し、追跡する必要がある。
ビデオパノプティクスのセグメンテーションを理解するために、まず最初に、セマンティクスとトラッキングを別途重視する構成課題について研究する。
カスタマイズされたデータセットのトレーニングを必要としない2つのデータ駆動アプローチが、それを解決するために選択される。
論文 参考訳(メタデータ) (2021-07-10T08:46:42Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。