論文の概要: VLTSeg: Simple Transfer of CLIP-Based Vision-Language Representations
for Domain Generalized Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2312.02021v2
- Date: Mon, 11 Dec 2023 08:22:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 22:11:13.831052
- Title: VLTSeg: Simple Transfer of CLIP-Based Vision-Language Representations
for Domain Generalized Semantic Segmentation
- Title(参考訳): VLTSeg:領域一般化セマンティックセマンティックセグメンテーションのためのCLIPに基づく視覚言語表現の簡易転送
- Authors: Christoph H\"ummer, Manuel Schwonberg, Liangwei Zhou, Hu Cao, Alois
Knoll, Hanno Gottschalk
- Abstract要約: セマンティックセグメンテーションにおける領域一般化を強化するために, VLTSegを提案する。
視覚言語事前学習は、教師付きおよび自己監督型視覚事前学習よりも大幅に優れることがわかった。
提案手法は,Cityscapes テストセットにおいて,86.1% mIoU で示される強いドメイン内一般化能力を示す。
- 参考スコア(独自算出の注目度): 6.921531360365674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domain generalization (DG) remains a significant challenge for perception
based on deep neural networks (DNN), where domain shifts occur due to lighting,
weather, or geolocation changes. In this work, we propose VLTSeg to enhance
domain generalization in semantic segmentation, where the network is solely
trained on the source domain and evaluated on unseen target domains. Our method
leverages the inherent semantic robustness of vision-language models. First, by
substituting traditional vision-only backbones with pre-trained encoders from
CLIP and EVA-CLIP as transfer learning setting we find that in the field of DG,
vision-language pre-training significantly outperforms supervised and
self-supervised vision pre-training. We thus propose a new vision-language
approach for domain generalized segmentation, which improves the domain
generalization SOTA by 7.6% mIoU when training on the synthetic GTA5 dataset.
We further show the superior generalization capabilities of vision-language
segmentation models by reaching 76.48% mIoU on the popular Cityscapes-to-ACDC
benchmark, outperforming the previous SOTA approach by 6.9% mIoU on the test
set at the time of writing. Additionally, our approach shows strong in-domain
generalization capabilities indicated by 86.1% mIoU on the Cityscapes test set,
resulting in a shared first place with the previous SOTA on the current
leaderboard at the time of submission.
- Abstract(参考訳): ドメイン一般化(DG)は、深いニューラルネットワーク(DNN)に基づく認識において重要な課題であり、照明、天気、位置情報の変更によるドメインシフトが発生する。
本稿では,vltseg を用いて意味セグメンテーションにおけるドメインの一般化について提案する。ネットワークはソースドメインでのみ訓練され,対象領域で評価される。
本手法は視覚言語モデル固有の意味的ロバスト性を利用する。
第一に、従来の視覚のみのバックボーンをCLIPとEVA-CLIPから事前学習したエンコーダに置き換えることで、DGの分野では、視覚言語による事前学習が教師付きおよび自己指導型視覚前訓練よりも大幅に優れていることが分かる。
そこで我々は,合成GTA5データセットのトレーニングにおいて,ドメイン一般化SOTAを7.6%向上させる,ドメイン一般化セグメンテーションのための新しい視覚言語アプローチを提案する。
さらに、一般的なCityscapes-to-ACDCベンチマークで76.48% mIoUに達し、筆記時のテストセットにおいて、以前のSOTAアプローチよりも6.9% mIoU向上した視覚言語セグメンテーションモデルの優れた一般化能力を示す。
さらに,提案手法は,都市景観テストセット上で86.1%miouが示す強力なドメイン内一般化能力を示し,提案時の現行のリーダボード上で,以前のsomaと1位を共有した。
関連論文リスト
- A Study on Unsupervised Domain Adaptation for Semantic Segmentation in the Era of Vision-Language Models [1.2499537119440245]
ドメインシフトは、ディープラーニングベースのコンピュータビジョンにおける大きな課題の1つです。
UDAメソッドは、そのドメインのラベルのないデータのみを使用することで、モデルを新しいターゲットドメインに適応させる。
最近の視覚言語モデルは、ドメイン適応を促進する強力な一般化能力を示している。
既存のUDAメソッドのエンコーダを視覚言語で事前学習したエンコーダに置き換えることで,大幅な性能向上が期待できることを示す。
論文 参考訳(メタデータ) (2024-11-25T14:12:24Z) - Vision Superalignment: Weak-to-Strong Generalization for Vision
Foundation Models [55.919653720979824]
本稿では、より弱いモデルを用いてより強いモデルを監督する弱強一般化の概念に焦点を当てる。
弱強監督のための新規かつ適応的に調整可能な損失関数を提案する。
提案手法は, 強い一般化によって設定された性能ベンチマークを超えるだけでなく, データセット全体を用いた微調整の強いモデルの結果を上回る。
論文 参考訳(メタデータ) (2024-02-06T06:30:34Z) - Multi-Scale and Multi-Layer Contrastive Learning for Domain Generalization [5.124256074746721]
深部畳み込みニューラルネットワークの一般化能力は、ネットワークの多層的および多スケール的表現を活用することで向上できると論じる。
画像分類器の領域一般化を目的とした,低レベル特徴と高レベル特徴を複数スケールで組み合わせたフレームワークを提案する。
我々のモデルは従来のDG手法よりも優れており、全てのデータセットにおいて競争力と最先端の結果を連続的に生成できることを示す。
論文 参考訳(メタデータ) (2023-08-28T08:54:27Z) - Augmentation-based Domain Generalization for Semantic Segmentation [2.179313476241343]
教師なしドメイン適応(UDA)とドメイン一般化(DG)は、目に見えないドメインに対するディープニューラルネットワーク(DNN)の一般化の欠如に対処することを目的としている。
本稿では,ボケ,ノイズ,色ジッタなど,シンプルなルールベースの画像拡張によるドメイン内および外部の一般化機能について検討する。
我々の実験は、複数の異なる拡張の組み合わせが単一拡張よりも優れているという一般的な科学的基準を確認した。
論文 参考訳(メタデータ) (2023-04-24T14:26:53Z) - TFS-ViT: Token-Level Feature Stylization for Domain Generalization [17.82872117103924]
視覚変換器(ViT)は、幅広いコンピュータビジョンタスクにおいて優れた性能を示している。
本稿では,ドメイン一般化のためのToken-level Feature Stylization (TFS-ViT) アプローチを提案する。
提案手法は,異なる領域の画像の正規化統計を混合することによりトークンの特徴を変換する。
論文 参考訳(メタデータ) (2023-03-28T03:00:28Z) - When Neural Networks Fail to Generalize? A Model Sensitivity Perspective [82.36758565781153]
ドメイン一般化 (Domain Generalization, DG) は、異なる分布の下で見えないドメインでうまく機能するようにモデルを訓練することを目的としている。
本稿では,より現実的で,より困難なシナリオである単一領域一般化(Single-DG)について考察する。
我々は「モデル感度」と命名する一般化と強く相関するモデルの性質を経験的に確認する。
本稿では、高感度の周波数をターゲットとした拡張画像を生成するために、スペクトル逆データ拡張(SADA)の新たな戦略を提案する。
論文 参考訳(メタデータ) (2022-12-01T20:15:15Z) - Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。
AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文 参考訳(メタデータ) (2022-06-30T17:55:12Z) - Towards Principled Disentanglement for Domain Generalization [90.9891372499545]
機械学習モデルの根本的な課題は、アウト・オブ・ディストリビューション(OOD)データへの一般化である。
私たちはまず、DEC(Disentanglement-Constrained Domain Generalization)と呼ばれる制約付き最適化としてOOD一般化問題を定式化する。
この変換に基づいて、結合表現の不絡合と領域一般化のための原始双対アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-27T07:36:32Z) - Adversarially Adaptive Normalization for Single Domain Generalization [71.80587939738672]
一般化正規化アプローチ,適応標準化と再スケーリング正規化(ASR-Norm)を提案する。
ASR-Normは、ニューラルネットワークを介して標準化と再スケーリングの統計学を学ぶ。
ASR-Normは最先端のADAアプローチに一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-06-01T23:58:23Z) - Learning Meta Face Recognition in Unseen Domains [74.69681594452125]
メタ顔認識(MFR)というメタラーニングを用いた新しい顔認識手法を提案する。
MFRは、メタ最適化目標を用いてソース/ターゲットドメインシフトを合成する。
一般化顔認識評価のためのベンチマークを2つ提案する。
論文 参考訳(メタデータ) (2020-03-17T14:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。