論文の概要: DPStyler: Dynamic PromptStyler for Source-Free Domain Generalization
- arxiv url: http://arxiv.org/abs/2403.16697v2
- Date: Sun, 14 Jul 2024 13:27:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 01:15:36.291664
- Title: DPStyler: Dynamic PromptStyler for Source-Free Domain Generalization
- Title(参考訳): DPStyler: ソースフリードメイン一般化のための動的PromptStyler
- Authors: Yunlong Tang, Yuxuan Wan, Lei Qi, Xin Geng,
- Abstract要約: Source-Free Domain Generalization (SFDG) は、ソースドメインに頼ることなく、未確認のターゲットドメインに対して機能するモデルを開発することを目的としている。
SFDGにおける研究は、主に大規模視覚言語モデルの既存の知識に大きく依存している。
本稿では,動的PromptStyler(DPStyler)について紹介する。
- 参考スコア(独自算出の注目度): 43.67213274161226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Source-Free Domain Generalization (SFDG) aims to develop a model that works for unseen target domains without relying on any source domain. Research in SFDG primarily bulids upon the existing knowledge of large-scale vision-language models and utilizes the pre-trained model's joint vision-language space to simulate style transfer across domains, thus eliminating the dependency on source domain images. However, how to efficiently simulate rich and diverse styles using text prompts, and how to extract domain-invariant information useful for classification from features that contain both semantic and style information after the encoder, are directions that merit improvement. In this paper, we introduce Dynamic PromptStyler (DPStyler), comprising Style Generation and Style Removal modules to address these issues. The Style Generation module refreshes all styles at every training epoch, while the Style Removal module eliminates variations in the encoder's output features caused by input styles. Moreover, since the Style Generation module, responsible for generating style word vectors using random sampling or style mixing, makes the model sensitive to input text prompts, we introduce a model ensemble method to mitigate this sensitivity. Extensive experiments demonstrate that our framework outperforms state-of-the-art methods on benchmark datasets.
- Abstract(参考訳): Source-Free Domain Generalization (SFDG) は、ソースドメインに頼ることなく、未確認のターゲットドメインに対して機能するモデルを開発することを目的としている。
SFDGの研究は、主に大規模視覚言語モデルの既存の知識に基づいており、事前訓練されたモデルの合同視覚言語空間を利用して、ドメイン間のスタイル転送をシミュレートし、ソースドメインイメージへの依存を排除している。
しかし、テキストプロンプトを用いてリッチで多様なスタイルを効率的にシミュレートする方法や、エンコーダの後に意味情報とスタイル情報の両方を含む特徴から分類に有用なドメイン不変情報を抽出する方法は、改善に値する方向である。
本稿では,これらの問題に対処するためのスタイル生成モジュールとスタイル削除モジュールからなる動的プロンプトタイラー(DPStyler)を紹介する。
Style Generationモジュールはすべてのトレーニングエポックですべてのスタイルをリフレッシュするが、Style removalモジュールは入力スタイルに起因するエンコーダの出力機能のバリエーションを取り除く。
さらに、ランダムサンプリングやスタイルミキシングを用いたスタイルワードベクトルの生成に責任を持つスタイル生成モジュールは、入力テキストプロンプトに敏感なモデルを生成するため、この感度を緩和するモデルアンサンブル法を導入する。
大規模な実験により、我々のフレームワークはベンチマークデータセット上で最先端の手法より優れていることが示された。
関連論文リスト
- ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - FontDiffuser: One-Shot Font Generation via Denoising Diffusion with
Multi-Scale Content Aggregation and Style Contrastive Learning [45.696909070215476]
FontDiffuserは拡散に基づく画像から画像へのワンショットフォント生成手法である。
従来の方法と比較して、複雑な文字と大きなスタイルの変更を一貫して排他的に引き継いでいる。
論文 参考訳(メタデータ) (2023-12-19T13:23:20Z) - ParaGuide: Guided Diffusion Paraphrasers for Plug-and-Play Textual Style
Transfer [57.6482608202409]
テキストスタイル転送は、意味を保ちながらテキストのスタイル特性を変換するタスクである。
任意のスタイルに柔軟に適応できる汎用型転送のための新しい拡散型フレームワークを提案する。
本研究では,人的評価と自動評価の両面から,Enron Email Corpusの手法を検証するとともに,形式性,感情,さらにはオーサシップスタイルの伝達にも優れることを示す。
論文 参考訳(メタデータ) (2023-08-29T17:36:02Z) - MODIFY: Model-driven Face Stylization without Style Images [77.24793103549158]
既存の顔のスタイリング手法は、翻訳プロセス中に常にターゲット(スタイル)ドメインの存在を取得する。
そこで本研究では,MODel-drIven Face stYlization (MODIFY) と呼ばれる新たな手法を提案する。
複数の異なるデータセットに対する実験結果は、教師なし顔のスタイリングにおけるMODIFYの有効性を検証した。
論文 参考訳(メタデータ) (2023-03-17T08:35:17Z) - Adversarial Style Augmentation for Domain Generalized Urban-Scene
Segmentation [120.96012935286913]
そこで本研究では,学習中にハードなスタイリング画像を生成可能な,新たな対向型拡張手法を提案する。
2つの合成から実のセマンティックセグメンテーションベンチマークの実験により、AdvStyleは目に見えない実領域におけるモデル性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2022-07-11T14:01:25Z) - Style Interleaved Learning for Generalizable Person Re-identification [69.03539634477637]
DG ReIDトレーニングのための新しいスタイルインターリーブラーニング(IL)フレームワークを提案する。
従来の学習戦略とは異なり、ILには2つの前方伝播と1つの後方伝播が組み込まれている。
我々のモデルはDG ReIDの大規模ベンチマークにおいて最先端の手法を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-07-07T07:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。