論文の概要: Style Transfer with Diffusion Models for Synthetic-to-Real Domain Adaptation
- arxiv url: http://arxiv.org/abs/2505.16360v1
- Date: Thu, 22 May 2025 08:11:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.138376
- Title: Style Transfer with Diffusion Models for Synthetic-to-Real Domain Adaptation
- Title(参考訳): 合成ドメイン適応のための拡散モデルを用いたスタイル伝達
- Authors: Estelle Chigot, Dennis G. Wilson, Meriem Ghrib, Thomas Oberlin,
- Abstract要約: 拡散モデルを用いた意味論的一貫したスタイル伝達のための2つの新しい手法を提案する。
GTA5をソースとして,Cityscapes/ACDCをターゲットドメインとして実験したところ,FIDスコアが低く,コンテンツ保存性が向上した高品質な画像が得られた。
- 参考スコア(独自算出の注目度): 4.50001192781448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic segmentation models trained on synthetic data often perform poorly on real-world images due to domain gaps, particularly in adverse conditions where labeled data is scarce. Yet, recent foundation models enable to generate realistic images without any training. This paper proposes to leverage such diffusion models to improve the performance of vision models when learned on synthetic data. We introduce two novel techniques for semantically consistent style transfer using diffusion models: Class-wise Adaptive Instance Normalization and Cross-Attention (CACTI) and its extension with selective attention Filtering (CACTIF). CACTI applies statistical normalization selectively based on semantic classes, while CACTIF further filters cross-attention maps based on feature similarity, preventing artifacts in regions with weak cross-attention correspondences. Our methods transfer style characteristics while preserving semantic boundaries and structural coherence, unlike approaches that apply global transformations or generate content without constraints. Experiments using GTA5 as source and Cityscapes/ACDC as target domains show that our approach produces higher quality images with lower FID scores and better content preservation. Our work demonstrates that class-aware diffusion-based style transfer effectively bridges the synthetic-to-real domain gap even with minimal target domain data, advancing robust perception systems for challenging real-world applications. The source code is available at: https://github.com/echigot/cactif.
- Abstract(参考訳): 合成データに基づいて訓練されたセマンティックセグメンテーションモデルは、ドメインギャップによる実世界の画像、特にラベル付きデータが不足している悪条件において、よくよく機能する。
しかし、最近の基礎モデルは、トレーニングなしでリアルな画像を生成することができる。
本稿では,このような拡散モデルを利用して,合成データから学習した視覚モデルの性能を向上させることを提案する。
クラスワイド適応インスタンス正規化(CACTI)とクロスアタテンション(CACTIF)という,拡散モデルを用いた意味論的一貫したスタイル伝達手法と,選択的なアテンションフィルタリング(CACTIF)による拡張について紹介する。
CACTIは意味クラスに基づいて統計的正規化を選択的に適用する一方、CACTIFは特徴類似性に基づいてクロスアテンションマップをフィルタし、弱いクロスアテンション対応を持つ領域のアーティファクトを防止する。
提案手法は,グローバルトランスフォーメーションを適用したり,制約のないコンテンツを生成するアプローチとは異なり,セマンティック境界と構造コヒーレンスを保ちながらスタイル特性を伝達する。
GTA5をソースとして,Cityscapes/ACDCをターゲットドメインとして実験したところ,FIDスコアが低く,コンテンツ保存性が向上した高品質な画像が得られた。
我々の研究は、クラス認識拡散に基づくスタイル転送が、最小限のターゲットドメインデータであっても、合成と現実のドメインギャップを効果的に橋渡しし、現実のアプリケーションに挑戦するための堅牢な認識システムを進歩させることを実証している。
ソースコードは、https://github.com/echigot/cactif.comで入手できる。
関連論文リスト
- Diffusion Features to Bridge Domain Gap for Semantic Segmentation [2.8616666231199424]
本稿では, 拡散モデルの特徴を効率的に活用するために, サンプリングおよび融合技術を活用するアプローチについて検討する。
テキスト・画像生成能力の強みを生かして、暗黙的に後部知識を学習する新しいトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2024-06-02T15:33:46Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations [61.132408427908175]
0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。
実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。
そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T08:12:28Z) - Adaptive Semantic Consistency for Cross-domain Few-shot Classification [27.176106714652327]
クロスドメイン・ショット分類(CD-FSC)は、いくつかのサンプルを用いて新規なターゲットクラスを特定することを目的としている。
本稿では,ドメイン間の堅牢性を向上する,シンプルなプラグアンドプレイ適応セマンティック一貫性フレームワークを提案する。
提案したASCは、ソースドメインの知識を明示的に伝達することで、モデルがターゲットドメインに過度に適合しないようにする。
論文 参考訳(メタデータ) (2023-08-01T15:37:19Z) - Few-shot Semantic Image Synthesis with Class Affinity Transfer [23.471210664024067]
そこで本研究では,大規模なデータセット上でトレーニングされたモデルを利用して,小規模なターゲットデータセット上での学習能力を向上させるトランスファー手法を提案する。
クラス親和性行列は、ターゲットラベルマップと互換性を持たせるために、ソースモデルの第一層として導入される。
セマンティック・セマンティック・シンセサイザー(セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アーキテクチャー)にアプローチを適用する。
論文 参考訳(メタデータ) (2023-04-05T09:24:45Z) - One-shot Unsupervised Domain Adaptation with Personalized Diffusion
Models [15.590759602379517]
ラベル付きソースドメインからターゲットドメインへのセグメンテーションモデルの適用は、ドメイン適応において最も難しい問題の1つである。
テキストと画像の拡散モデルを用いて、写真リアル画像を用いた合成ターゲットデータセットを生成する。
実験の結果,本手法は最先端OSUDA法を最大7.1%超えることがわかった。
論文 参考訳(メタデータ) (2023-03-31T14:16:38Z) - Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。
本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文 参考訳(メタデータ) (2022-04-14T22:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。