論文の概要: 3rd Place Solution for PVUW2023 VSS Track: A Large Model for Semantic
Segmentation on VSPW
- arxiv url: http://arxiv.org/abs/2306.02291v1
- Date: Sun, 4 Jun 2023 07:50:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 18:47:17.680918
- Title: 3rd Place Solution for PVUW2023 VSS Track: A Large Model for Semantic
Segmentation on VSPW
- Title(参考訳): pvuw2023vssトラックの3位解法:vspwにおける意味セグメンテーションのための大規模モデル
- Authors: Shijie Chang, Zeqi Hao, Ben Kang, Xiaoqi Zhao, Jiawen Zhu, Zhenyu
Chen, Lihe Zhang, Lu Zhang, Huchuan Lu
- Abstract要約: 本稿では,PVUW2023 VSSトラックの3位解について紹介する。
ビデオセマンティックセグメンテーションの課題を解決するために,様々な画像レベルの視覚的バックボーンとセグメンテーションヘッドを探索した。
- 参考スコア(独自算出の注目度): 68.56017675820897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce 3rd place solution for PVUW2023 VSS track.
Semantic segmentation is a fundamental task in computer vision with numerous
real-world applications. We have explored various image-level visual backbones
and segmentation heads to tackle the problem of video semantic segmentation.
Through our experimentation, we find that InternImage-H as the backbone and
Mask2former as the segmentation head achieves the best performance. In
addition, we explore two post-precessing methods: CascadePSP and Segment
Anything Model (SAM). Ultimately, our approach obtains 62.60\% and 64.84\% mIoU
on the VSPW test set1 and final test set, respectively, securing the third
position in the PVUW2023 VSS track.
- Abstract(参考訳): 本稿では,PVUW2023 VSSトラックの3位解を提案する。
セマンティックセグメンテーション(Semantic segmentation)は、コンピュータビジョンにおける多くの実世界応用の基本課題である。
映像意味セグメンテーションの問題に取り組むため,様々な画像レベルの視覚バックボーンとセグメンテーションヘッドを調査した。
実験の結果,InternImage-Hがバックボーン,Mask2formerがセグメンテーションヘッドが最高の性能を発揮することがわかった。
さらに,CascadePSPとSegment Anything Model (SAM)の2つのポストプレシューティング手法について検討する。
最終的に、VSPWテストセット1と最終テストセットの62.60\%と64.84\% mIoUをそれぞれ取得し、PVUW2023 VSSトラックの第3位を確保した。
関連論文リスト
- Solution for CVPR 2024 UG2+ Challenge Track on All Weather Semantic Segmentation [9.322345758563886]
UG2+ Challenge at CVPR 2024において, 悪天候におけるセマンティックセグメンテーションの解決法について述べる。
InternImage-Hのバックボーンを,大規模関節データセットから事前トレーニングした重み付きで初期化し,最先端のUpernetセグメンテーション手法で強化する。
提案手法は,テストセット上での高度な性能を実証し,この課題において第3位を達成している。
論文 参考訳(メタデータ) (2024-06-09T15:56:35Z) - 3rd Place Solution for MOSE Track in CVPR 2024 PVUW workshop: Complex Video Object Segmentation [63.199793919573295]
ビデオオブジェクト(VOS)はコンピュータビジョンにおいて重要なタスクであり、ビデオフレーム間の背景から前景オブジェクトを区別することに焦点を当てている。
我々の研究はCutieモデルからインスピレーションを得ており、オブジェクトメモリ、メモリフレームの総数、および入力解像度がセグメンテーション性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-06T00:56:25Z) - 2nd Place Solution for PVUW Challenge 2024: Video Panoptic Segmentation [12.274092278786966]
ビデオパノプティクス(VPS)は、ビデオ内のすべてのオブジェクトを同時に分類、追跡、セグメンテーションすることを目的としている。
本稿では,ロバストな統合ビデオパノプティクスセグメンテーションソリューションを提案する。
本稿では,VPQ スコア56.36 と 57.12 の最先端性能を開発・試験段階で達成する。
論文 参考訳(メタデータ) (2024-06-01T17:03:16Z) - A Vanilla Multi-Task Framework for Dense Visual Prediction Solution to
1st VCL Challenge -- Multi-Task Robustness Track [31.754017006309564]
様々な視覚認識アルゴリズムをマルチタスクモデルにシームレスに結合するUniNetというフレームワークを提案する。
具体的には,DreTR3D,Mask2Former,BinsFormerを3次元オブジェクト検出,インスタンスセグメンテーション,深さ推定タスクとして選択する。
最後のエントリーは、InternImage-Lバックボーンを備えた単一のモデルで、総合スコアは49.6である。
論文 参考訳(メタデータ) (2024-02-27T08:51:20Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - 3rd Place Solution for PVUW Challenge 2023: Video Panoptic Segmentation [10.04177400017471]
本稿では,ロバストな統合ビデオパノプティクスセグメンテーションソリューションを提案する。
私たちのソリューションでは、セマンティックターゲットとインスタンスターゲットの両方をクエリのセットとして表現しています。
次に、これらのクエリとニューラルネットワークによって抽出されたビデオ機能を組み合わせて、セグメンテーションマスクを予測する。
論文 参考訳(メタデータ) (2023-06-11T19:44:40Z) - 1st Place Solution of The Robust Vision Challenge (RVC) 2022 Semantic
Segmentation Track [67.56316745239629]
本報告では,ECCV 2022におけるロバストビジョンチャレンジのセマンティックセグメンテーション課題に対する勝利解について述べる。
本手法では,エンコーダとしてFAN-B-Hybridモデルを採用し,セグメンテーションフレームワークとしてSegformerを使用している。
提案手法は,マルチドメインセグメンテーションタスクの強力なベースラインとして機能し,今後の作業に役立てることができる。
論文 参考訳(メタデータ) (2022-10-23T20:52:22Z) - Mask2Former for Video Instance Segmentation [172.10001340104515]
Mask2Formerは、アーキテクチャや損失、さらにはトレーニングパイプラインを変更することなく、ビデオセグメンテーションインスタンス上で最先端のパフォーマンスを達成する。
本稿では,3次元セグメント化ボリュームを直接予測することにより,映像セグメント化を自明に一般化するユニバーサル画像セグメント化アーキテクチャを示す。
論文 参考訳(メタデータ) (2021-12-20T18:59:59Z) - Three Ways to Improve Semantic Segmentation with Self-Supervised Depth
Estimation [90.87105131054419]
ラベルなし画像列からの自己教師付き単眼深度推定により強化された半教師付きセマンティックセマンティックセマンティックセマンティクスのフレームワークを提案する。
提案されたモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2020-12-19T21:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。