論文の概要: Strong but simple: A Baseline for Domain Generalized Dense Perception by CLIP-based Transfer Learning
- arxiv url: http://arxiv.org/abs/2312.02021v3
- Date: Wed, 30 Oct 2024 22:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 23:41:12.527498
- Title: Strong but simple: A Baseline for Domain Generalized Dense Perception by CLIP-based Transfer Learning
- Title(参考訳): 強だが単純:CLIPに基づく伝達学習によるドメイン一般化Dense知覚のベースライン
- Authors: Christoph Hümmer, Manuel Schwonberg, Liangwei Zhou, Hu Cao, Alois Knoll, Hanno Gottschalk,
- Abstract要約: 微調整された視覚言語事前学習モデルは、競争力やより強い一般化結果をもたらす。
これは、ドメインの一般化にImageNetベースの転送学習を使用するという標準に挑戦する。
また、ドメイン内一般化の改善により、Cityscapesテストセットの86.4% mIoUのSOTAが改善された。
- 参考スコア(独自算出の注目度): 6.532114018212791
- License:
- Abstract: Domain generalization (DG) remains a significant challenge for perception based on deep neural networks (DNNs), where domain shifts occur due to synthetic data, lighting, weather, or location changes. Vision-language models (VLMs) marked a large step for the generalization capabilities and have been already applied to various tasks. Very recently, first approaches utilized VLMs for domain generalized segmentation and object detection and obtained strong generalization. However, all these approaches rely on complex modules, feature augmentation frameworks or additional models. Surprisingly and in contrast to that, we found that simple fine-tuning of vision-language pre-trained models yields competitive or even stronger generalization results while being extremely simple to apply. Moreover, we found that vision-language pre-training consistently provides better generalization than the previous standard of vision-only pre-training. This challenges the standard of using ImageNet-based transfer learning for domain generalization. Fully fine-tuning a vision-language pre-trained model is capable of reaching the domain generalization SOTA when training on the synthetic GTA5 dataset. Moreover, we confirm this observation for object detection on a novel synthetic-to-real benchmark. We further obtain superior generalization capabilities by reaching 77.9% mIoU on the popular Cityscapes-to-ACDC benchmark. We also found improved in-domain generalization, leading to an improved SOTA of 86.4% mIoU on the Cityscapes test set marking the first place on the leaderboard.
- Abstract(参考訳): ドメイン一般化(DG)は、合成データ、照明、天気、位置変化によるドメインシフトが発生するディープニューラルネットワーク(DNN)に基づく認識において、依然として重要な課題である。
視覚言語モデル(VLM)は一般化能力の大きなステップであり、すでに様々なタスクに応用されている。
ごく最近、ドメイン一般化セグメンテーションとオブジェクト検出にVLMを利用し、強力な一般化を得た。
しかしながら、これらのアプローチはすべて、複雑なモジュール、機能拡張フレームワーク、または追加モデルに依存しています。
驚くべきことに、それとは対照的に、視覚言語事前訓練されたモデルの単純な微調整は、非常に簡単に適用できながら、競争力やより強い一般化結果をもたらすことがわかった。
さらに,視覚言語による事前学習は,従来の視覚のみの事前学習よりも優れた一般化を提供することがわかった。
これは、ドメインの一般化にImageNetベースの転送学習を使用するという標準に挑戦する。
視覚言語事前学習モデルの完全な微調整は、合成GTA5データセットのトレーニング時にドメイン一般化SOTAに到達することができる。
さらに,新しい合成実時間ベンチマークにおいて,物体検出のための観測結果を確認した。
さらに,人気の高いCityscapes-to-ACDCベンチマークで77.9% mIoUに達することで,より優れた一般化能力を得る。
また、ドメイン内一般化の改善も見出され、Cityscapesテストセットで86.4%のSOTAが向上し、リーダボードで最初の位置を占めました。
関連論文リスト
- Single-temporal Supervised Remote Change Detection for Domain Generalization [42.55492600157288]
変化検出はリモートセンシング画像解析に広く応用されている。
既存の方法はデータセットごとに個別にトレーニングモデルを必要とする。
本稿では,変化検出領域の一般化のための視覚遅延事前学習に基づくマルチモーダルコントラスト学習(ChangeCLIP)を提案する。
論文 参考訳(メタデータ) (2024-04-17T12:38:58Z) - Vision Superalignment: Weak-to-Strong Generalization for Vision
Foundation Models [55.919653720979824]
本稿では、より弱いモデルを用いてより強いモデルを監督する弱強一般化の概念に焦点を当てる。
弱強監督のための新規かつ適応的に調整可能な損失関数を提案する。
提案手法は, 強い一般化によって設定された性能ベンチマークを超えるだけでなく, データセット全体を用いた微調整の強いモデルの結果を上回る。
論文 参考訳(メタデータ) (2024-02-06T06:30:34Z) - Multi-Scale and Multi-Layer Contrastive Learning for Domain Generalization [5.124256074746721]
深部畳み込みニューラルネットワークの一般化能力は、ネットワークの多層的および多スケール的表現を活用することで向上できると論じる。
画像分類器の領域一般化を目的とした,低レベル特徴と高レベル特徴を複数スケールで組み合わせたフレームワークを提案する。
我々のモデルは従来のDG手法よりも優れており、全てのデータセットにおいて競争力と最先端の結果を連続的に生成できることを示す。
論文 参考訳(メタデータ) (2023-08-28T08:54:27Z) - Augmentation-based Domain Generalization for Semantic Segmentation [2.179313476241343]
教師なしドメイン適応(UDA)とドメイン一般化(DG)は、目に見えないドメインに対するディープニューラルネットワーク(DNN)の一般化の欠如に対処することを目的としている。
本稿では,ボケ,ノイズ,色ジッタなど,シンプルなルールベースの画像拡張によるドメイン内および外部の一般化機能について検討する。
我々の実験は、複数の異なる拡張の組み合わせが単一拡張よりも優れているという一般的な科学的基準を確認した。
論文 参考訳(メタデータ) (2023-04-24T14:26:53Z) - TFS-ViT: Token-Level Feature Stylization for Domain Generalization [17.82872117103924]
視覚変換器(ViT)は、幅広いコンピュータビジョンタスクにおいて優れた性能を示している。
本稿では,ドメイン一般化のためのToken-level Feature Stylization (TFS-ViT) アプローチを提案する。
提案手法は,異なる領域の画像の正規化統計を混合することによりトークンの特徴を変換する。
論文 参考訳(メタデータ) (2023-03-28T03:00:28Z) - When Neural Networks Fail to Generalize? A Model Sensitivity Perspective [82.36758565781153]
ドメイン一般化 (Domain Generalization, DG) は、異なる分布の下で見えないドメインでうまく機能するようにモデルを訓練することを目的としている。
本稿では,より現実的で,より困難なシナリオである単一領域一般化(Single-DG)について考察する。
我々は「モデル感度」と命名する一般化と強く相関するモデルの性質を経験的に確認する。
本稿では、高感度の周波数をターゲットとした拡張画像を生成するために、スペクトル逆データ拡張(SADA)の新たな戦略を提案する。
論文 参考訳(メタデータ) (2022-12-01T20:15:15Z) - Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。
AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文 参考訳(メタデータ) (2022-06-30T17:55:12Z) - Towards Principled Disentanglement for Domain Generalization [90.9891372499545]
機械学習モデルの根本的な課題は、アウト・オブ・ディストリビューション(OOD)データへの一般化である。
私たちはまず、DEC(Disentanglement-Constrained Domain Generalization)と呼ばれる制約付き最適化としてOOD一般化問題を定式化する。
この変換に基づいて、結合表現の不絡合と領域一般化のための原始双対アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-27T07:36:32Z) - Adversarially Adaptive Normalization for Single Domain Generalization [71.80587939738672]
一般化正規化アプローチ,適応標準化と再スケーリング正規化(ASR-Norm)を提案する。
ASR-Normは、ニューラルネットワークを介して標準化と再スケーリングの統計学を学ぶ。
ASR-Normは最先端のADAアプローチに一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-06-01T23:58:23Z) - Learning Meta Face Recognition in Unseen Domains [74.69681594452125]
メタ顔認識(MFR)というメタラーニングを用いた新しい顔認識手法を提案する。
MFRは、メタ最適化目標を用いてソース/ターゲットドメインシフトを合成する。
一般化顔認識評価のためのベンチマークを2つ提案する。
論文 参考訳(メタデータ) (2020-03-17T14:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。