論文の概要: Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization
- arxiv url: http://arxiv.org/abs/2212.09068v1
- Date: Sun, 18 Dec 2022 11:42:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 17:32:28.638047
- Title: Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization
- Title(参考訳): スタイル幻覚付きデュアル一貫性学習:ビジュアルドメイン一般化のための統一フレームワーク
- Authors: Yuyang Zhao, Zhun Zhong, Na Zhao, Nicu Sebe, Gim Hee Lee
- Abstract要約: 本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
- 参考スコア(独自算出の注目度): 117.3856882511919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domain shift widely exists in the visual world, while modern deep neural
networks commonly suffer from severe performance degradation under domain shift
due to the poor generalization ability, which limits the real-world
applications. The domain shift mainly lies in the limited source environmental
variations and the large distribution gap between source and unseen target
data. To this end, we propose a unified framework, Style-HAllucinated Dual
consistEncy learning (SHADE), to handle such domain shift in various visual
tasks. Specifically, SHADE is constructed based on two consistency constraints,
Style Consistency (SC) and Retrospection Consistency (RC). SC enriches the
source situations and encourages the model to learn consistent representation
across style-diversified samples. RC leverages general visual knowledge to
prevent the model from overfitting to source data and thus largely keeps the
representation consistent between the source and general visual models.
Furthermore, we present a novel style hallucination module (SHM) to generate
style-diversified samples that are essential to consistency learning. SHM
selects basis styles from the source distribution, enabling the model to
dynamically generate diverse and realistic samples during training. Extensive
experiments demonstrate that our versatile SHADE can significantly enhance the
generalization in various visual recognition tasks, including image
classification, semantic segmentation and object detection, with different
models, i.e., ConvNets and Transformer.
- Abstract(参考訳): ドメインシフトは視覚的に広く存在するが、現代のディープニューラルネットワークは、現実の応用を制限する一般化能力の貧弱さにより、ドメインシフトの下で深刻なパフォーマンス劣化に悩まされることが多い。
ドメインシフトは主に、限られたソース環境の変化と、ソースと見えないターゲットデータの間の大きな分散ギャップにある。
そこで本研究では,様々な視覚的タスクにおいて,このようなドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning(SHADE)を提案する。
具体的には、SHADEはStyle Consistency(SC)とRetrospection Consistency(RC)という2つの一貫性の制約に基づいて構築される。
SCはソースの状況を強化し、スタイルの異なるサンプル間で一貫性のある表現を学ぶようモデルに促す。
rcは一般的な視覚的知識を活用して、モデルがソースデータに過度に適合することを防止するため、ソースモデルと一般的なビジュアルモデル間の表現の一貫性を保ちます。
さらに,一貫した学習に欠かせないスタイル多様性サンプルを生成する新しいスタイル幻覚モジュール(SHM)を提案する。
SHMはソース分布からベーススタイルを選択し、トレーニング中に多様なリアルなサンプルを動的に生成できる。
広範な実験により,画像分類や意味セグメンテーション,オブジェクト検出など,様々な視覚認識タスクの一般化が,コンベネットやトランスフォーマといった異なるモデルにより著しく向上することが示された。
関連論文リスト
- Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment [20.902935570581207]
本稿では,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入し,視覚ノイズに対するモデルの耐性を高める。
MARNetは、異なるドメイン間で情報をスムーズかつ安定的にブレンドする、クロスモーダル拡散再構成モジュールを含んでいる。
2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
論文 参考訳(メタデータ) (2024-07-26T16:30:18Z) - Can Generative Models Improve Self-Supervised Representation Learning? [0.7999703756441756]
本稿では、生成モデルを利用して意味論的に一貫した画像拡張を生成することによって、自己指導型学習パラダイムを充実させる新しいフレームワークを提案する。
その結果,下流タスクにおいて,学習した視覚表現の精度を最大10%向上させることができた。
論文 参考訳(メタデータ) (2024-03-09T17:17:07Z) - Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations [61.132408427908175]
0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。
実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。
そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T08:12:28Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Federated Domain Generalization for Image Recognition via Cross-Client
Style Transfer [60.70102634957392]
ドメイン一般化(Domain Generalization, DG)は、画像認識においてホットなトピックであり、目に見えないドメインでうまく機能する一般的なモデルを訓練することを目的としている。
本稿では,データサンプルを交換することなく,クロスクライアント型転送(CCST)による画像認識のための新しい領域一般化手法を提案する。
本手法は2つのDGベンチマーク(PACS, OfficeHome)とFL設定における大規模医用画像データセット(Camelyon17)において,最近のSOTA DG法より優れている。
論文 参考訳(メタデータ) (2022-10-03T13:15:55Z) - Style-Hallucinated Dual Consistency Learning for Domain Generalized
Semantic Segmentation [117.3856882511919]
本稿では、ドメインシフトを処理するためのStyle-HAllucinated Dual consistEncy Learning(SHADE)フレームワークを提案する。
SHADEは3つの実世界のデータセットの平均mIoUに対して5.07%と8.35%の精度で改善し、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-06T02:49:06Z) - Two-Level Adversarial Visual-Semantic Coupling for Generalized Zero-shot
Learning [21.89909688056478]
トレーニング中に推論ネットワークを用いて生成ネットワークを増強する2段階のジョイントアイデアを提案する。
これにより、ビジュアルドメインとセマンティックドメイン間の効果的な知識伝達のための強力な相互モーダル相互作用が提供される。
提案手法は,4つのベンチマークデータセットに対して,いくつかの最先端手法に対して評価し,その性能を示す。
論文 参考訳(メタデータ) (2020-07-15T15:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。