論文の概要: Semantic Segmentation on VSPW Dataset through Aggregation of Transformer
Models
- arxiv url: http://arxiv.org/abs/2109.01316v1
- Date: Fri, 3 Sep 2021 05:20:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-06 13:58:47.893920
- Title: Semantic Segmentation on VSPW Dataset through Aggregation of Transformer
Models
- Title(参考訳): 変圧器モデルの集約によるVSPWデータセットのセマンティックセグメンテーション
- Authors: Zixuan Chen, Junhong Zou, Xiaotao Wang
- Abstract要約: 本報告では,ICCV2021 - Video Scene Parsing in the Wild Challengeのチーム"BetterThing"のソリューションを紹介する。
トランスフォーマーはビデオフレームの特徴を抽出するためのバックボーンとして使用され、最終的な結果は2つのトランスフォーマーモデルSWINとVOLOの出力の集約である。
この解は57.3% mIoUを達成し、ワイルドチャレンジのビデオ・シーン・パーシングでは3位にランクインした。
- 参考スコア(独自算出の注目度): 10.478712332545854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation is an important task in computer vision, from which
some important usage scenarios are derived, such as autonomous driving, scene
parsing, etc. Due to the emphasis on the task of video semantic segmentation,
we participated in this competition. In this report, we briefly introduce the
solutions of team 'BetterThing' for the ICCV2021 - Video Scene Parsing in the
Wild Challenge. Transformer is used as the backbone for extracting video frame
features, and the final result is the aggregation of the output of two
Transformer models, SWIN and VOLO. This solution achieves 57.3% mIoU, which is
ranked 3rd place in the Video Scene Parsing in the Wild Challenge.
- Abstract(参考訳): セマンティックセグメンテーションはコンピュータビジョンにおいて重要なタスクであり、そこから自律運転やシーン解析などの重要な利用シナリオが導出される。
ビデオセマンティックセグメンテーションの課題に重点を置いて,本大会に参加した。
本稿では,ICCV2021 - Video Scene Parsing in the Wild Challengeにおけるチーム"BetterThing"のソリューションについて紹介する。
トランスフォーマーはビデオフレームの特徴を抽出するためのバックボーンとして使用され、最終的な結果は2つのトランスフォーマーモデルSWINとVOLOの出力の集約である。
この解は57.3% mIoUを達成し、ワイルドチャレンジのビデオシーンパーシングでは3位にランクインした。
関連論文リスト
- Point Transformer V3 Extreme: 1st Place Solution for 2024 Waymo Open Dataset Challenge in Semantic Segmentation [98.11452697097539]
この技術的レポートでは、2024年のオープンデータセットチャレンジのセマンティックセグメンテーショントラックの第一位ソリューションについて詳述する。
我々は,最先端のプラグアンドプレイトレーニングと推論技術を実装することで,ベンチマーク上でのポイントトランスフォーマーV3の性能を大幅に向上させた。
このアプローチによって、Openデータセットセグメンテーションのリーダボードのトップポジションが確保され、他のエントリよりも大幅に向上しました。
論文 参考訳(メタデータ) (2024-07-21T22:08:52Z) - 2nd Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation [8.20168024462357]
Motion Expression Guided Videoは、モーション記述付き自然言語表現に基づくビデオ内のオブジェクトのセグメンテーションを目的とした、挑戦的なタスクである。
本稿では、時間的拡張のための予備情報としてビデオインスタンス分割モデルから得られたマスク情報を紹介し、空間的洗練のためにSAMを用いる。
CVPR 2024 PVUW Challengeでは,試験段階では49.92 J &F,試験段階では54.20 J &F,MeViS Trackでは2位となった。
論文 参考訳(メタデータ) (2024-06-20T02:16:23Z) - 1st Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation [81.50620771207329]
ビデオオブジェクトセグメンテーション(RVOS)における静的支配データとフレームサンプリングの有効性について検討する。
本手法は,競技段階でのJ&Fスコア0.5447を達成し,PVUWチャレンジのMeViSトラックで1位となった。
論文 参考訳(メタデータ) (2024-06-11T08:05:26Z) - 2nd Place Solution for PVUW Challenge 2024: Video Panoptic Segmentation [12.274092278786966]
ビデオパノプティクス(VPS)は、ビデオ内のすべてのオブジェクトを同時に分類、追跡、セグメンテーションすることを目的としている。
本稿では,ロバストな統合ビデオパノプティクスセグメンテーションソリューションを提案する。
本稿では,VPQ スコア56.36 と 57.12 の最先端性能を開発・試験段階で達成する。
論文 参考訳(メタデータ) (2024-06-01T17:03:16Z) - 3rd Place Solution for PVUW Challenge 2023: Video Panoptic Segmentation [10.04177400017471]
本稿では,ロバストな統合ビデオパノプティクスセグメンテーションソリューションを提案する。
私たちのソリューションでは、セマンティックターゲットとインスタンスターゲットの両方をクエリのセットとして表現しています。
次に、これらのクエリとニューラルネットワークによって抽出されたビデオ機能を組み合わせて、セグメンテーションマスクを予測する。
論文 参考訳(メタデータ) (2023-06-11T19:44:40Z) - 3rd Place Solution for PVUW2023 VSS Track: A Large Model for Semantic
Segmentation on VSPW [68.56017675820897]
本稿では,PVUW2023 VSSトラックの3位解について紹介する。
ビデオセマンティックセグメンテーションの課題を解決するために,様々な画像レベルの視覚的バックボーンとセグメンテーションヘッドを探索した。
論文 参考訳(メタデータ) (2023-06-04T07:50:38Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z) - Local-Global Context Aware Transformer for Language-Guided Video
Segmentation [103.35509224722097]
言語誘導ビデオセグメンテーション(LVS)の課題について検討する。
そこで我々は,Transformerアーキテクチャを有限メモリで拡張し,動画全体を言語表現で効率的にクエリするLocaterを提案する。
LVSモデルの視覚的接地能力を徹底的に検討するため、新しいLVSデータセットであるA2D-S+をA2D-Sデータセット上に構築する。
論文 参考訳(メタデータ) (2022-03-18T07:35:26Z) - Memory Based Video Scene Parsing [25.452807436316167]
57.44mIoUを達成し,第2位(チーム名はCharlesBLWX)を獲得した第1回ビデオシーンパーシング・イン・ザ・ワイルドチャレンジのソリューションを紹介した。
論文 参考訳(メタデータ) (2021-09-01T13:18:36Z) - VATT: Transformers for Multimodal Self-Supervised Learning from Raw
Video, Audio and Text [60.97904439526213]
video-audio-text transformer (vatt) は生の信号を入力として取り、様々な下流タスクに役立つほどリッチなマルチモーダル表現を抽出する。
マルチモーダルなコントラスト損失を用いて,vattのエンドツーエンドをスクラッチからトレーニングし,映像動作認識,音声イベント分類,画像分類,テキストからビデオへの検索といった下流タスクによってその性能を評価する。
論文 参考訳(メタデータ) (2021-04-22T17:07:41Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。