論文の概要: Semantic Segmentation on VSPW Dataset through Contrastive Loss and
Multi-dataset Training Approach
- arxiv url: http://arxiv.org/abs/2306.03508v1
- Date: Tue, 6 Jun 2023 08:53:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 16:36:36.993172
- Title: Semantic Segmentation on VSPW Dataset through Contrastive Loss and
Multi-dataset Training Approach
- Title(参考訳): コントラスト損失とマルチデータセット学習によるVSPWデータセットのセマンティックセグメンテーション
- Authors: Min Yan, Qianxiong Ning, Qian Wang
- Abstract要約: 本稿では,ビデオセマンティックセグメンテーションのためのCVPR2023ワークショップの優勝ソリューションを提案する。
CVPR 2023では,VSPWデータセットの65.95%mIoU性能が第一位にランクされた。
- 参考スコア(独自算出の注目度): 7.112725255953468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video scene parsing incorporates temporal information, which can enhance the
consistency and accuracy of predictions compared to image scene parsing. The
added temporal dimension enables a more comprehensive understanding of the
scene, leading to more reliable results. This paper presents the winning
solution of the CVPR2023 workshop for video semantic segmentation, focusing on
enhancing Spatial-Temporal correlations with contrastive loss. We also explore
the influence of multi-dataset training by utilizing a label-mapping technique.
And the final result is aggregating the output of the above two models. Our
approach achieves 65.95% mIoU performance on the VSPW dataset, ranked 1st place
on the VSPW challenge at CVPR 2023.
- Abstract(参考訳): ビデオシーン解析には時間情報が含まれており、画像シーン解析と比較して予測の一貫性と正確性を高めることができる。
時間次元を追加することで、シーンのより包括的な理解が可能になり、より信頼性の高い結果が得られる。
本稿では,ビデオセマンティックセグメンテーションのためのCVPR2023ワークショップの優勝ソリューションを提案する。
また,ラベルマッピング技術を利用したマルチデータセット学習の影響についても検討する。
最後の結果は、上記の2つのモデルの出力を集約することです。
CVPR 2023のVSPWチャレンジでは,VSPWデータセット上で65.95% mIoUのパフォーマンスを達成した。
関連論文リスト
- A Co-training Approach for Noisy Time Series Learning [35.61140756248812]
エンコーダを学習するために,協調学習に基づくコントラスト学習を反復的に実施する。
我々の実験は、このコトレーニングアプローチが性能を著しく向上させることを示した。
TS-CoTが既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-08-24T04:33:30Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Video-SwinUNet: Spatio-temporal Deep Learning Framework for VFSS
Instance Segmentation [10.789826145990016]
本稿では,医用ビデオセグメンテーションのためのディープラーニングフレームワークを提案する。
本フレームワークは, 時間次元にまたがる近傍のフレームから特徴を明示的に抽出する。
テンポラリな機能ブレンダーを組み込んで、ハイレベルな時間的特徴をトークン化し、Swin Transformerを介してエンコードされた強力なグローバル機能を形成する。
論文 参考訳(メタデータ) (2023-02-22T12:09:39Z) - Temporal Contrastive Learning with Curriculum [19.442685015494316]
ConCurは、カリキュラム学習を用いて動的サンプリング戦略を課すコントラスト型ビデオ表現学習法である。
提案手法は,UCF101とHMDB51という2つの一般的な行動認識データセットを用いて実験を行い,その有効性を実証した。
論文 参考訳(メタデータ) (2022-09-02T00:12:05Z) - SatMAE: Pre-training Transformers for Temporal and Multi-Spectral
Satellite Imagery [74.82821342249039]
Masked Autoencoder(MAE)に基づく時間・マルチスペクトル衛星画像の事前学習フレームワークであるSatMAEについて述べる。
時間的情報を活用するために、時間にわたって画像パッチを個別にマスキングする時間的埋め込みを含む。
論文 参考訳(メタデータ) (2022-07-17T01:35:29Z) - CP2: Copy-Paste Contrastive Pretraining for Semantic Segmentation [16.082155440640964]
CP2(Copy-Paste Contrastive Pretraining)と呼ばれる画素単位のコントラスト学習手法を提案する。
詳細は、画像(前景)から異なる背景画像にランダムな作物をコピー・ペーストし、意味的セグメンテーションモデルを事前訓練する。
実験では、下流セマンティックセグメンテーションにおけるCP2の強い性能を示す。
論文 参考訳(メタデータ) (2022-03-22T13:21:49Z) - Exploiting Spatial-Temporal Semantic Consistency for Video Scene Parsing [11.848929625911575]
本稿では,クラス排他的コンテキスト情報を取得するための空間時間意味一貫性手法を提案する。
具体的には、空間的・時間的次元における意味的一貫性を制約する空間的・時間的整合性損失を設計する。
ICCV 2021でVSPWチャレンジで優勝した。
論文 参考訳(メタデータ) (2021-09-06T08:24:38Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z) - Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences
for Urban Scene Segmentation [57.68890534164427]
本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を利用して,都市景観セグメンテーションの性能を向上させることができるかどうかを問う。
我々は単にラベルのないデータに対して擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。
我々のNaive-Studentモデルは、このような単純で効果的な反復的半教師付き学習で訓練され、3つのCityscapesベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-05-20T18:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。