Fugu-MT 論文翻訳(概要): Style-Hallucinated Dual Consistency Learning: A Unified Framework for Visual Domain Generalization

論文の概要: Style-Hallucinated Dual Consistency Learning: A Unified Framework for Visual Domain Generalization

arxiv url: http://arxiv.org/abs/2212.09068v1
Date: Sun, 18 Dec 2022 11:42:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-20 17:32:28.638047
Title: Style-Hallucinated Dual Consistency Learning: A Unified Framework for Visual Domain Generalization
Title（参考訳）: スタイル幻覚付きデュアル一貫性学習:ビジュアルドメイン一般化のための統一フレームワーク
Authors: Yuyang Zhao, Zhun Zhong, Na Zhao, Nicu Sebe, Gim Hee Lee
Abstract要約: 本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
参考スコア（独自算出の注目度）: 117.3856882511919
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Domain shift widely exists in the visual world, while modern deep neural networks commonly suffer from severe performance degradation under domain shift due to the poor generalization ability, which limits the real-world applications. The domain shift mainly lies in the limited source environmental variations and the large distribution gap between source and unseen target data. To this end, we propose a unified framework, Style-HAllucinated Dual consistEncy learning (SHADE), to handle such domain shift in various visual tasks. Specifically, SHADE is constructed based on two consistency constraints, Style Consistency (SC) and Retrospection Consistency (RC). SC enriches the source situations and encourages the model to learn consistent representation across style-diversified samples. RC leverages general visual knowledge to prevent the model from overfitting to source data and thus largely keeps the representation consistent between the source and general visual models. Furthermore, we present a novel style hallucination module (SHM) to generate style-diversified samples that are essential to consistency learning. SHM selects basis styles from the source distribution, enabling the model to dynamically generate diverse and realistic samples during training. Extensive experiments demonstrate that our versatile SHADE can significantly enhance the generalization in various visual recognition tasks, including image classification, semantic segmentation and object detection, with different models, i.e., ConvNets and Transformer.
Abstract（参考訳）: ドメインシフトは視覚的に広く存在するが、現代のディープニューラルネットワークは、現実の応用を制限する一般化能力の貧弱さにより、ドメインシフトの下で深刻なパフォーマンス劣化に悩まされることが多い。ドメインシフトは主に、限られたソース環境の変化と、ソースと見えないターゲットデータの間の大きな分散ギャップにある。そこで本研究では,様々な視覚的タスクにおいて,このようなドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning(SHADE)を提案する。具体的には、SHADEはStyle Consistency(SC)とRetrospection Consistency(RC)という2つの一貫性の制約に基づいて構築される。 SCはソースの状況を強化し、スタイルの異なるサンプル間で一貫性のある表現を学ぶようモデルに促す。 rcは一般的な視覚的知識を活用して、モデルがソースデータに過度に適合することを防止するため、ソースモデルと一般的なビジュアルモデル間の表現の一貫性を保ちます。さらに,一貫した学習に欠かせないスタイル多様性サンプルを生成する新しいスタイル幻覚モジュール(SHM)を提案する。 SHMはソース分布からベーススタイルを選択し、トレーニング中に多様なリアルなサンプルを動的に生成できる。広範な実験により,画像分類や意味セグメンテーション,オブジェクト検出など,様々な視覚認識タスクの一般化が,コンベネットやトランスフォーマといった異なるモデルにより著しく向上することが示された。

関連論文リスト

Casual Inference via Style Bias Deconfounding for Domain Generalization [28.866189619091227]
本稿では, 因果推論に基づく新しいフレームワークであるStyle Deconfounding Causal Learningを紹介する。提案手法は、ドメイン一般化問題に適した構造因果モデル(SCM)の構築から始まり、スタイルの影響を考慮に入れたバックドア調整戦略を適用する。この基礎の上に構築したSGEM(style-guided Expert Module)は,トレーニング中のスタイル分布を適応的にクラスタリングし,グローバルなコンバウンディングスタイルをキャプチャする。バックドア因果学習モジュール(BDCL)は特徴抽出中に因果介入を行い、グローバルな共起スタイルをサンプル予測に適切に統合し、スタイルバイアスを効果的に低減する。
論文参考訳（メタデータ） (2025-03-21T04:52:31Z)
Multisource Collaborative Domain Generalization for Cross-Scene Remote Sensing Image Classification [57.945437355714155]
クロスシーン画像分類は, 異なる分布領域のアノテート領域に, 地中物質の事前の知識を伝達することを目的としている。既存のアプローチでは、未確認のターゲットドメインへの単一ソースドメインの一般化に重点を置いている。マルチソースリモートセンシングデータの均一性と不均一性特性に基づく,新しいマルチソース協調型ドメイン一般化フレームワーク(MS-CDG)を提案する。
論文参考訳（メタデータ） (2024-12-05T06:15:08Z)
Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment [20.902935570581207]
本稿では,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入し,視覚ノイズに対するモデルの耐性を高める。 MARNetは、異なるドメイン間で情報をスムーズかつ安定的にブレンドする、クロスモーダル拡散再構成モジュールを含んでいる。 2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
論文参考訳（メタデータ） (2024-07-26T16:30:18Z)
Can Generative Models Improve Self-Supervised Representation Learning? [0.7999703756441756]
本稿では、生成モデルを利用して意味論的に一貫した画像拡張を生成することによって、自己指導型学習パラダイムを充実させる新しいフレームワークを提案する。その結果,下流タスクにおいて,学習した視覚表現の精度を最大10%向上させることができた。
論文参考訳（メタデータ） (2024-03-09T17:17:07Z)
Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations [61.132408427908175]
0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
論文参考訳（メタデータ） (2023-08-21T08:12:28Z)
UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。 UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文参考訳（メタデータ） (2023-06-01T15:39:38Z)
Pre-training Contextualized World Models with In-the-wild Videos for Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文参考訳（メタデータ） (2023-05-29T14:29:12Z)
Federated Domain Generalization for Image Recognition via Cross-Client Style Transfer [60.70102634957392]
ドメイン一般化(Domain Generalization, DG)は、画像認識においてホットなトピックであり、目に見えないドメインでうまく機能する一般的なモデルを訓練することを目的としている。本稿では,データサンプルを交換することなく,クロスクライアント型転送(CCST)による画像認識のための新しい領域一般化手法を提案する。本手法は2つのDGベンチマーク(PACS, OfficeHome)とFL設定における大規模医用画像データセット(Camelyon17)において,最近のSOTA DG法より優れている。
論文参考訳（メタデータ） (2022-10-03T13:15:55Z)
Style-Hallucinated Dual Consistency Learning for Domain Generalized Semantic Segmentation [117.3856882511919]
本稿では、ドメインシフトを処理するためのStyle-HAllucinated Dual consistEncy Learning(SHADE)フレームワークを提案する。 SHADEは3つの実世界のデータセットの平均mIoUに対して5.07%と8.35%の精度で改善し、最先端の手法よりも優れています。
論文参考訳（メタデータ） (2022-04-06T02:49:06Z)
Two-Level Adversarial Visual-Semantic Coupling for Generalized Zero-shot Learning [21.89909688056478]
トレーニング中に推論ネットワークを用いて生成ネットワークを増強する2段階のジョイントアイデアを提案する。これにより、ビジュアルドメインとセマンティックドメイン間の効果的な知識伝達のための強力な相互モーダル相互作用が提供される。提案手法は,4つのベンチマークデータセットに対して,いくつかの最先端手法に対して評価し,その性能を示す。
論文参考訳（メタデータ） (2020-07-15T15:34:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。