論文の概要: VLTSeg: Simple Transfer of CLIP-Based Vision-Language Representations
for Domain Generalized Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2312.02021v2
- Date: Mon, 11 Dec 2023 08:22:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 22:11:13.831052
- Title: VLTSeg: Simple Transfer of CLIP-Based Vision-Language Representations
for Domain Generalized Semantic Segmentation
- Title(参考訳): VLTSeg:領域一般化セマンティックセマンティックセグメンテーションのためのCLIPに基づく視覚言語表現の簡易転送
- Authors: Christoph H\"ummer, Manuel Schwonberg, Liangwei Zhou, Hu Cao, Alois
Knoll, Hanno Gottschalk
- Abstract要約: セマンティックセグメンテーションにおける領域一般化を強化するために, VLTSegを提案する。
視覚言語事前学習は、教師付きおよび自己監督型視覚事前学習よりも大幅に優れることがわかった。
提案手法は,Cityscapes テストセットにおいて,86.1% mIoU で示される強いドメイン内一般化能力を示す。
- 参考スコア(独自算出の注目度): 6.921531360365674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domain generalization (DG) remains a significant challenge for perception
based on deep neural networks (DNN), where domain shifts occur due to lighting,
weather, or geolocation changes. In this work, we propose VLTSeg to enhance
domain generalization in semantic segmentation, where the network is solely
trained on the source domain and evaluated on unseen target domains. Our method
leverages the inherent semantic robustness of vision-language models. First, by
substituting traditional vision-only backbones with pre-trained encoders from
CLIP and EVA-CLIP as transfer learning setting we find that in the field of DG,
vision-language pre-training significantly outperforms supervised and
self-supervised vision pre-training. We thus propose a new vision-language
approach for domain generalized segmentation, which improves the domain
generalization SOTA by 7.6% mIoU when training on the synthetic GTA5 dataset.
We further show the superior generalization capabilities of vision-language
segmentation models by reaching 76.48% mIoU on the popular Cityscapes-to-ACDC
benchmark, outperforming the previous SOTA approach by 6.9% mIoU on the test
set at the time of writing. Additionally, our approach shows strong in-domain
generalization capabilities indicated by 86.1% mIoU on the Cityscapes test set,
resulting in a shared first place with the previous SOTA on the current
leaderboard at the time of submission.
- Abstract(参考訳): ドメイン一般化(DG)は、深いニューラルネットワーク(DNN)に基づく認識において重要な課題であり、照明、天気、位置情報の変更によるドメインシフトが発生する。
本稿では,vltseg を用いて意味セグメンテーションにおけるドメインの一般化について提案する。ネットワークはソースドメインでのみ訓練され,対象領域で評価される。
本手法は視覚言語モデル固有の意味的ロバスト性を利用する。
第一に、従来の視覚のみのバックボーンをCLIPとEVA-CLIPから事前学習したエンコーダに置き換えることで、DGの分野では、視覚言語による事前学習が教師付きおよび自己指導型視覚前訓練よりも大幅に優れていることが分かる。
そこで我々は,合成GTA5データセットのトレーニングにおいて,ドメイン一般化SOTAを7.6%向上させる,ドメイン一般化セグメンテーションのための新しい視覚言語アプローチを提案する。
さらに、一般的なCityscapes-to-ACDCベンチマークで76.48% mIoUに達し、筆記時のテストセットにおいて、以前のSOTAアプローチよりも6.9% mIoU向上した視覚言語セグメンテーションモデルの優れた一般化能力を示す。
さらに,提案手法は,都市景観テストセット上で86.1%miouが示す強力なドメイン内一般化能力を示し,提案時の現行のリーダボード上で,以前のsomaと1位を共有した。
関連論文リスト
- Multiscale and Multilayer Contrastive Learning for Domain Generalization [5.124256074746721]
深部畳み込みニューラルネットワークの一般化能力は、ネットワークの多層的および多スケール的表現を活用することで向上できると論じる。
画像分類器の領域一般化を目的とした,低レベル特徴と高レベル特徴を複数スケールで組み合わせたフレームワークを提案する。
我々のモデルは従来のDG手法よりも優れており、全てのデータセットにおいて競争力と最先端の結果を連続的に生成できることを示す。
論文 参考訳(メタデータ) (2023-08-28T08:54:27Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z) - IDA: Informed Domain Adaptive Semantic Segmentation [51.12107564372869]
クラスレベルのセグメンテーション性能に基づいてデータを混合する自己学習フレームワークであるDomain Informed Adaptation (IDA) モデルを提案する。
IDAモデルでは、クラスレベルの性能を期待信頼スコア(ECS)によって追跡し、動的スケジュールを用いて異なる領域のデータに対する混合比を決定する。
提案手法は,GTA-Vの都市景観への適応において1.1 mIoU,SynTHIAの都市への適応において0.9 mIoUのマージンで,最先端のUDA-SS法よりも優れる。
論文 参考訳(メタデータ) (2023-03-05T18:16:34Z) - CLIP the Gap: A Single Domain Generalization Approach for Object
Detection [60.20931827772482]
単一ドメインの一般化(Single Domain Generalization)は、単一のソースドメイン上でモデルをトレーニングすることで、目に見えないターゲットドメインに一般化する問題に取り組む。
本稿では、事前学習された視覚言語モデルを用いて、テキストプロンプトを介して意味領域の概念を導入することを提案する。
本手法は,検出器のバックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によって実現される。
論文 参考訳(メタデータ) (2023-01-13T12:01:18Z) - Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。
AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文 参考訳(メタデータ) (2022-06-30T17:55:12Z) - A Broad Study of Pre-training for Domain Generalization and Adaptation [69.38359595534807]
ドメイン適応と一般化のための事前学習の幅広い研究と詳細な分析を行う。
我々は、単に最先端のバックボーンを使用することで、既存の最先端のドメイン適応ベースラインより優れていることを観察する。
論文 参考訳(メタデータ) (2022-03-22T15:38:36Z) - VOLO: Vision Outlooker for Visual Recognition [148.12522298731807]
視覚変換器 (ViT) はイメージネット分類において自己注意に基づくモデルの可能性を示している。
我々は、新しい展望の展望を導入し、VoLO(Vision Outlooker)と呼ばれる、シンプルで一般的なアーキテクチャを提示する。
グローバルな依存性モデリングを粗いレベルで重視する自己注意とは異なり、展望はより詳細な機能やコンテキストをトークンに効率的にエンコードする。
実験の結果、私たちのVOLOはImageNet-1K分類で87.1%のトップ1の精度を達成しており、これはこの競合ベンチマークで87%以上の精度で最初のモデルである。
論文 参考訳(メタデータ) (2021-06-24T15:46:54Z) - DAVOS: Semi-Supervised Video Object Segmentation via Adversarial Domain
Adaptation [2.9407987406005263]
ドメインシフトは常にビデオオブジェクトセグメンテーション(VOS)の主要な問題のひとつです。
本稿では, VOSタスクに対向領域適応を導入することで, ドメインシフトに対処する新しい手法を提案する。
DAVIS2016では,教師付きトレーニング後のIoUスコアが82.6%であった。
論文 参考訳(メタデータ) (2021-05-21T08:23:51Z) - Learning to adapt class-specific features across domains for semantic
segmentation [36.36210909649728]
本論文では,クラス情報毎に考慮し,ドメイン間の特徴を適応させることを学習する新しいアーキテクチャを提案する。
我々は最近導入されたStarGANアーキテクチャを画像翻訳のバックボーンとして採用している。
論文 参考訳(メタデータ) (2020-01-22T23:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。