論文の概要: Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization
- arxiv url: http://arxiv.org/abs/2212.09068v1
- Date: Sun, 18 Dec 2022 11:42:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 17:32:28.638047
- Title: Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization
- Title(参考訳): スタイル幻覚付きデュアル一貫性学習:ビジュアルドメイン一般化のための統一フレームワーク
- Authors: Yuyang Zhao, Zhun Zhong, Na Zhao, Nicu Sebe, Gim Hee Lee
- Abstract要約: 本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
- 参考スコア(独自算出の注目度): 117.3856882511919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domain shift widely exists in the visual world, while modern deep neural
networks commonly suffer from severe performance degradation under domain shift
due to the poor generalization ability, which limits the real-world
applications. The domain shift mainly lies in the limited source environmental
variations and the large distribution gap between source and unseen target
data. To this end, we propose a unified framework, Style-HAllucinated Dual
consistEncy learning (SHADE), to handle such domain shift in various visual
tasks. Specifically, SHADE is constructed based on two consistency constraints,
Style Consistency (SC) and Retrospection Consistency (RC). SC enriches the
source situations and encourages the model to learn consistent representation
across style-diversified samples. RC leverages general visual knowledge to
prevent the model from overfitting to source data and thus largely keeps the
representation consistent between the source and general visual models.
Furthermore, we present a novel style hallucination module (SHM) to generate
style-diversified samples that are essential to consistency learning. SHM
selects basis styles from the source distribution, enabling the model to
dynamically generate diverse and realistic samples during training. Extensive
experiments demonstrate that our versatile SHADE can significantly enhance the
generalization in various visual recognition tasks, including image
classification, semantic segmentation and object detection, with different
models, i.e., ConvNets and Transformer.
- Abstract(参考訳): ドメインシフトは視覚的に広く存在するが、現代のディープニューラルネットワークは、現実の応用を制限する一般化能力の貧弱さにより、ドメインシフトの下で深刻なパフォーマンス劣化に悩まされることが多い。
ドメインシフトは主に、限られたソース環境の変化と、ソースと見えないターゲットデータの間の大きな分散ギャップにある。
そこで本研究では,様々な視覚的タスクにおいて,このようなドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning(SHADE)を提案する。
具体的には、SHADEはStyle Consistency(SC)とRetrospection Consistency(RC)という2つの一貫性の制約に基づいて構築される。
SCはソースの状況を強化し、スタイルの異なるサンプル間で一貫性のある表現を学ぶようモデルに促す。
rcは一般的な視覚的知識を活用して、モデルがソースデータに過度に適合することを防止するため、ソースモデルと一般的なビジュアルモデル間の表現の一貫性を保ちます。
さらに,一貫した学習に欠かせないスタイル多様性サンプルを生成する新しいスタイル幻覚モジュール(SHM)を提案する。
SHMはソース分布からベーススタイルを選択し、トレーニング中に多様なリアルなサンプルを動的に生成できる。
広範な実験により,画像分類や意味セグメンテーション,オブジェクト検出など,様々な視覚認識タスクの一般化が,コンベネットやトランスフォーマといった異なるモデルにより著しく向上することが示された。
関連論文リスト
- Multisource Collaborative Domain Generalization for Cross-Scene Remote Sensing Image Classification [57.945437355714155]
クロスシーン画像分類は, 異なる分布領域のアノテート領域に, 地中物質の事前の知識を伝達することを目的としている。
既存のアプローチでは、未確認のターゲットドメインへの単一ソースドメインの一般化に重点を置いている。
マルチソースリモートセンシングデータの均一性と不均一性特性に基づく,新しいマルチソース協調型ドメイン一般化フレームワーク(MS-CDG)を提案する。
論文 参考訳(メタデータ) (2024-12-05T06:15:08Z) - Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment [20.902935570581207]
本稿では,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入し,視覚ノイズに対するモデルの耐性を高める。
MARNetは、異なるドメイン間で情報をスムーズかつ安定的にブレンドする、クロスモーダル拡散再構成モジュールを含んでいる。
2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
論文 参考訳(メタデータ) (2024-07-26T16:30:18Z) - FDS: Feedback-guided Domain Synthesis with Multi-Source Conditional Diffusion Models for Domain Generalization [19.0284321951354]
ドメイン一般化技術は、トレーニング中に新しいデータ分布をシミュレートすることで、モデルロバスト性を高めることを目的としている。
本稿では、拡散モデルを用いて新しい擬似ドメインを合成するFDS、フィードバック誘導ドメイン合成法を提案する。
本手法は, 領域一般化性能のベンチマークを, 様々な課題のあるデータセットに分けて設定することを示す。
論文 参考訳(メタデータ) (2024-07-04T02:45:29Z) - Can Generative Models Improve Self-Supervised Representation Learning? [0.7999703756441756]
生成モデルを利用して意味論的に一貫した画像拡張を生成することにより、自己教師付き学習(SSL)パラダイムを充実させるフレームワークを提案する。
その結果,下流タスクにおいて,学習した視覚表現の精度を最大10%向上させることができた。
論文 参考訳(メタデータ) (2024-03-09T17:17:07Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Federated Domain Generalization for Image Recognition via Cross-Client
Style Transfer [60.70102634957392]
ドメイン一般化(Domain Generalization, DG)は、画像認識においてホットなトピックであり、目に見えないドメインでうまく機能する一般的なモデルを訓練することを目的としている。
本稿では,データサンプルを交換することなく,クロスクライアント型転送(CCST)による画像認識のための新しい領域一般化手法を提案する。
本手法は2つのDGベンチマーク(PACS, OfficeHome)とFL設定における大規模医用画像データセット(Camelyon17)において,最近のSOTA DG法より優れている。
論文 参考訳(メタデータ) (2022-10-03T13:15:55Z) - Style-Hallucinated Dual Consistency Learning for Domain Generalized
Semantic Segmentation [117.3856882511919]
本稿では、ドメインシフトを処理するためのStyle-HAllucinated Dual consistEncy Learning(SHADE)フレームワークを提案する。
SHADEは3つの実世界のデータセットの平均mIoUに対して5.07%と8.35%の精度で改善し、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-06T02:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。