論文の概要: Intra-Source Style Augmentation for Improved Domain Generalization
- arxiv url: http://arxiv.org/abs/2210.10175v2
- Date: Mon, 29 May 2023 07:19:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 03:24:53.764049
- Title: Intra-Source Style Augmentation for Improved Domain Generalization
- Title(参考訳): 改良されたドメイン一般化のためのソース内スタイル拡張
- Authors: Yumeng Li, Dan Zhang, Margret Keuper, Anna Khoreva
- Abstract要約: セマンティックセグメンテーションにおける領域一般化を改善するために,イントラソーススタイル拡張(ISSA)手法を提案する。
ISSAはモデルに依存しず、CNNやTransformerで簡単に適用できる。
また、Cityscapes から Dark Z"urich の最近の最先端ソリューション RobustNet を $3%$ mIoU で改善するなど、他の領域の一般化手法を補完する。
- 参考スコア(独自算出の注目度): 21.591831983223997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The generalization with respect to domain shifts, as they frequently appear
in applications such as autonomous driving, is one of the remaining big
challenges for deep learning models. Therefore, we propose an intra-source
style augmentation (ISSA) method to improve domain generalization in semantic
segmentation. Our method is based on a novel masked noise encoder for StyleGAN2
inversion. The model learns to faithfully reconstruct the image preserving its
semantic layout through noise prediction. Random masking of the estimated noise
enables the style mixing capability of our model, i.e. it allows to alter the
global appearance without affecting the semantic layout of an image. Using the
proposed masked noise encoder to randomize style and content combinations in
the training set, ISSA effectively increases the diversity of training data and
reduces spurious correlation. As a result, we achieve up to $12.4\%$ mIoU
improvements on driving-scene semantic segmentation under different types of
data shifts, i.e., changing geographic locations, adverse weather conditions,
and day to night. ISSA is model-agnostic and straightforwardly applicable with
CNNs and Transformers. It is also complementary to other domain generalization
techniques, e.g., it improves the recent state-of-the-art solution RobustNet by
$3\%$ mIoU in Cityscapes to Dark Z\"urich.
- Abstract(参考訳): ドメインシフトに関する一般化は、自律運転のようなアプリケーションに頻繁に現れるように、ディープラーニングモデルにとって残る大きな課題の1つである。
そこで本研究では,セマンティクスセグメンテーションにおけるドメイン一般化を改善するために,ソース内スタイル拡張 (issa) 手法を提案する。
提案手法は,StyleGAN2インバージョンのためのマスク付きノイズエンコーダに基づく。
モデルはノイズ予測によって意味的レイアウトを保存するイメージを忠実に再構築することを学ぶ。
推定ノイズのランダムマスキングにより,画像のセマンティックレイアウトに影響を与えることなく,グローバルな外観を変化させることができる。
提案したマスク付きノイズエンコーダを用いてトレーニングセットのスタイルと内容の組み合わせをランダムにすることで、ISSAはトレーニングデータの多様性を効果的に向上し、スプリアス相関を低減する。
その結果,異なるデータシフト,すなわち地理的な場所の変化,悪天候,昼夜の運転シーンセマンティックセマンティックセグメンテーションにおいて,最大12.4\%のmIoUの改善が達成された。
ISSAはモデルに依存しず、CNNやTransformerで簡単に適用できる。
また、他の領域一般化手法、例えば最近の最先端ソリューションであるRobustNetをCityscapesのmIoUをDark Z\"urichに$3\%改善している。
関連論文リスト
- MoreStyle: Relax Low-frequency Constraint of Fourier-based Image Reconstruction in Generalizable Medical Image Segmentation [53.24011398381715]
MoreStyleと呼ばれるデータ拡張のためのPlug-and-Playモジュールを紹介します。
MoreStyleは、フーリエ空間の低周波制約を緩和することで、イメージスタイルを多様化する。
敵対的学習の助けを借りて、MoreStyleは潜在機能の中で最も複雑なスタイルの組み合わせを指差している。
論文 参考訳(メタデータ) (2024-03-18T11:38:47Z) - Improving the Transferability of Adversarial Examples with Arbitrary
Style Transfer [32.644062141738246]
スタイル転送ネットワークは、人間の意味的内容を保持しながら、画像内の低レベルの視覚的特徴の分布を変更することができる。
本稿では、任意のスタイル転送ネットワークを用いて、画像を異なる領域に変換する新たな攻撃手法であるStyle Transfer Method (STM)を提案する。
提案手法は、通常訓練されたモデルまたは逆訓練されたモデルにおいて、逆変換性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-08-21T09:58:13Z) - Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations [61.132408427908175]
0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。
実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。
そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T08:12:28Z) - Intra- & Extra-Source Exemplar-Based Style Synthesis for Improved Domain
Generalization [21.591831983223997]
セマンティックセグメンテーションにおけるドメインの一般化を改善するために,先進的なスタイル合成パイプラインを提案する。
提案手法は,StyleGAN2インバージョンのためのマスク付きノイズエンコーダに基づく。
データシフトの種類によって、ドライブシーンセマンティックセマンティックセグメンテーションの最大12.4%のmIoU改善を実現しています。
論文 参考訳(メタデータ) (2023-07-02T19:56:43Z) - Learning Content-enhanced Mask Transformer for Domain Generalized
Urban-Scene Segmentation [28.165600284392042]
ドメイン一般化都市シーンセマンティックセマンティックセグメンテーション (USSS) は,様々な都市シーンスタイルの汎用セマンティックセマンティックセグメンテーションを学習することを目的としている。
既存のアプローチは通常、都市シーンの内容を学ぶために畳み込みニューラルネットワーク(CNN)に依存している。
ドメイン一般化USSSのためのCMFormer(Content-enhanced Mask TransFormer)を提案する。
論文 参考訳(メタデータ) (2023-07-01T15:48:33Z) - Condition-Invariant Semantic Segmentation [77.10045325743644]
我々は現在最先端のドメイン適応アーキテクチャ上で条件不変セマンティック(CISS)を実装している。
本手法は,通常の都市景観$to$ACDCベンチマークにおいて,2番目に高い性能を実現する。
CISSはBDD100K-nightやACDC-nightのようなトレーニング中に見えない領域によく一般化している。
論文 参考訳(メタデータ) (2023-05-27T03:05:07Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - DGSS : Domain Generalized Semantic Segmentation using Iterative Style
Mining and Latent Representation Alignment [38.05196030226661]
現在の最先端技術 (SoTA) では、領域ギャップを埋める異なるメカニズムが提案されているが、低い照明条件下では性能が良くない。
本稿では、まず、スタイリングされた画像とソース画像のドメインギャップを最大化する対角的スタイルを識別する2段階のフレームワークを提案する。
そこで我々は,異なるスタイルの同一物体を混合して新たな訓練画像を構築するスタイル混合機構を提案する。
論文 参考訳(メタデータ) (2022-02-26T13:54:57Z) - MixStyle Neural Networks for Domain Generalization and Adaptation [122.36901703868321]
MixStyleは、データ収集やモデルのキャパシティ向上を必要とせずに、ドメインの一般化性能を向上させるプラグイン・アンド・プレイモジュールである。
実験の結果,MixStyleは画像認識,インスタンス検索,強化学習など幅広いタスクにおいて,分布外一般化性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-07-05T14:29:19Z) - Domain Generalization with MixStyle [120.52367818581608]
ドメインの一般化(domain generalization)は、ソースドメインのセットから学習することでこの問題に対処しようとしている。
MixStyleと呼ばれるこの手法は、視覚領域が画像スタイルと密接に関連しているという観察によって動機づけられる。
MixStyleは、ミニバッチトレーニングに完全に適合し、実装が非常に簡単です。
論文 参考訳(メタデータ) (2021-04-05T16:58:09Z) - Domain-invariant Similarity Activation Map Contrastive Learning for
Retrieval-based Long-term Visual Localization [30.203072945001136]
本研究では,多領域画像変換による領域不変特徴抽出のために,確率論的に一般アーキテクチャを定式化する。
そして、より精密な局所化のために、新しい勾配重み付き類似性活性化写像損失(Grad-SAM)を組み込んだ。
CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。
我々の性能は、最先端のイメージベースのローカライゼーションベースラインを中あるいは高精度で上回るか、あるいは上回る。
論文 参考訳(メタデータ) (2020-09-16T14:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。