論文の概要: PromptStyler: Prompt-driven Style Generation for Source-free Domain
Generalization
- arxiv url: http://arxiv.org/abs/2307.15199v1
- Date: Thu, 27 Jul 2023 21:14:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 14:24:54.690250
- Title: PromptStyler: Prompt-driven Style Generation for Source-free Domain
Generalization
- Title(参考訳): PromptStyler: ソースフリードメイン一般化のためのプロンプト駆動型スタイル生成
- Authors: Junhyeong Cho, Gilhyun Nam, Sungyeon Kim, Hunmin Yang, Suha Kwak
- Abstract要約: PromptStylerは、プロンプトを介して様々なスタイルを合成することによって、関節空間における様々な分布シフトをシミュレートする。
イメージは一切必要とせず、単一のGPUを使用したトレーニングには30分しかかからない。
- 参考スコア(独自算出の注目度): 14.314469909182968
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In a joint vision-language space, a text feature (e.g., from "a photo of a
dog") could effectively represent its relevant image features (e.g., from dog
photos). Inspired by this, we propose PromptStyler which simulates various
distribution shifts in the joint space by synthesizing diverse styles via
prompts without using any images to deal with source-free domain
generalization. Our method learns to generate a variety of style features (from
"a S* style of a") via learnable style word vectors for pseudo-words S*. To
ensure that learned styles do not distort content information, we force
style-content features (from "a S* style of a [class]") to be located nearby
their corresponding content features (from "[class]") in the joint
vision-language space. After learning style word vectors, we train a linear
classifier using synthesized style-content features. PromptStyler achieves the
state of the art on PACS, VLCS, OfficeHome and DomainNet, although it does not
require any images and takes just ~30 minutes for training using a single GPU.
- Abstract(参考訳): 共同視覚言語空間では、テキスト機能(例:「犬の写真」から)はその関連画像の特徴(例:犬の写真から)を効果的に表現することができる。
そこで本研究では,ソースフリー領域の一般化を扱うために,画像を使わずにプロンプトを介して多様なスタイルを合成することにより,関節空間における様々な分布シフトをシミュレートするPromptStylerを提案する。
提案手法は,擬似単語S*の学習可能な単語ベクトルを用いて,様々なスタイル特徴(aのS*スタイルから)を生成することを学習する。
学習されたスタイルがコンテンツ情報を歪めないようにするため、スタイルコンテンツの特徴([クラス]のs*スタイルから)は、共用視覚言語空間内の対応するコンテンツ特徴([クラス]から)の近くに配置するよう強制します。
スタイル単語ベクトルを学習した後、合成スタイルコンテンツ特徴を用いて線形分類器を訓練する。
promptstylerはpacs、vlcs、officehome、domainnetの最先端技術を実現しているが、イメージは一切必要とせず、単一のgpuを使ってトレーニングするのに30分程度しかかからない。
関連論文リスト
- FAGStyle: Feature Augmentation on Geodesic Surface for Zero-shot Text-guided Diffusion Image Style Transfer [2.3293561091456283]
イメージスタイル転送の目標は、オリジナルのコンテンツを維持しながら、スタイル参照によってガイドされたイメージをレンダリングすることである。
ゼロショットテキスト誘導拡散画像スタイル転送方式であるFAGStyleを紹介する。
提案手法は,スライディングウィンドウクロップを組み込むことにより,パッチ間の情報インタラクションを向上させる。
論文 参考訳(メタデータ) (2024-08-20T04:20:11Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - Sem-CS: Semantic CLIPStyler for Text-Based Image Style Transfer [4.588028371034406]
本稿ではセマンティックCLIPStyler(Semantic CLIPStyler)を提案する。
Sem-CSはまずコンテンツイメージを正当で非正当なオブジェクトに分割し、所定のスタイルのテキスト記述に基づいて芸術的なスタイルを転送する。
DISTS,NIMA,ユーザスタディスコアなどの実験結果から,提案手法は質的,定量的な性能に優れることが示された。
論文 参考訳(メタデータ) (2023-07-12T05:59:42Z) - Any-to-Any Style Transfer: Making Picasso and Da Vinci Collaborate [58.83278629019384]
スタイル転送は、コンテンツ参照のために、ある画像のスタイルを他の画像へのスタイル参照にレンダリングすることを目的としている。
既存のアプローチでは、スタイルイメージの全体的スタイルをグローバルな方法で適用するか、あるいは、スタイルイメージのローカル色とテクスチャを、事前に定義された方法でコンテンツに移行するかのいずれかである。
本稿では,Any-to-Any Style Transferを提案する。Any-to-Any Style Transferは,スタイル画像中の領域のスタイルを対話的に選択し,所定のコンテンツ領域に適用することができる。
論文 参考訳(メタデータ) (2023-04-19T15:15:36Z) - StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized
Tokenizer of a Large-Scale Generative Model [64.26721402514957]
本論文では,自然言語を用いて抽象芸術スタイルを記述するスタイル転送手法であるStylerDALLEを提案する。
具体的には、非自己回帰的なトークンシーケンス変換として、言語誘導型転送タスクを定式化する。
スタイル情報を組み込むために,CLIPに基づく言語指導による強化学習戦略を提案する。
論文 参考訳(メタデータ) (2023-03-16T12:44:44Z) - SEM-CS: Semantic CLIPStyler for Text-Based Image Style Transfer [4.588028371034406]
本稿ではセマンティックCLIPStyler(Semantic CLIPStyler)を提案する。
Sem-CSはまずコンテンツイメージを正当で非正当なオブジェクトに分割し、所定のスタイルのテキスト記述に基づいて芸術的なスタイルを転送する。
DISTS,NIMA,ユーザスタディスコアなどの実験結果から,提案手法は質的,定量的な性能に優れることが示された。
論文 参考訳(メタデータ) (2023-03-11T07:33:06Z) - Few-shot Font Generation by Learning Style Difference and Similarity [84.76381937516356]
異なるスタイルの違いと同一スタイルの類似性(DS-Font)を学習する新しいフォント生成手法を提案する。
具体的には,提案するクラスタレベルコントラシブ・スタイル(CCS)の損失により,スタイルエンコーディングを実現する多層型プロジェクタを提案する。
論文 参考訳(メタデータ) (2023-01-24T13:57:25Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - STALP: Style Transfer with Auxiliary Limited Pairing [36.23393954839379]
本稿では,1対のソース画像と,そのスタイリング画像を用いた画像の例ベーススタイリング手法を提案する。
本研究では,対象画像に対するリアルタイムな意味論的スタイル転送が可能な画像翻訳ネットワークの訓練方法を示す。
論文 参考訳(メタデータ) (2021-10-20T11:38:41Z) - Language-Driven Image Style Transfer [72.36790598245096]
我々は、テキストでガイドされたコンテンツイメージのスタイルを操作するための新しいタスク、言語駆動型イメージスタイル転送(textttLDIST)を導入する。
識別器は、スタイルイメージの言語とパッチの相関や、変換された結果の相関を考慮し、スタイル命令を共同で埋め込む。
実験により, CLVAは有効であり, textttLDIST 上で超高速に転送された結果が得られた。
論文 参考訳(メタデータ) (2021-06-01T01:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。