論文の概要: PromptStyler: Prompt-driven Style Generation for Source-free Domain
Generalization
- arxiv url: http://arxiv.org/abs/2307.15199v2
- Date: Tue, 15 Aug 2023 08:30:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 16:09:56.927969
- Title: PromptStyler: Prompt-driven Style Generation for Source-free Domain
Generalization
- Title(参考訳): PromptStyler: ソースフリードメイン一般化のためのプロンプト駆動型スタイル生成
- Authors: Junhyeong Cho, Gilhyun Nam, Sungyeon Kim, Hunmin Yang, Suha Kwak
- Abstract要約: 本稿では,プロンプトを介して多様なスタイルを合成することにより,関節空間における様々な分布変化をシミュレートするPromptStylerを提案する。
提案手法は,擬似単語S*に対する学習可能なスタイルワードベクトルを用いて,様々なスタイル特徴を生成することを学習する。
PromptStylerは、トレーニングにイメージを必要としないにも関わらず、PACS、VLCS、OfficeHome、DomainNetの最先端技術を実現している。
- 参考スコア(独自算出の注目度): 35.37285674554127
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In a joint vision-language space, a text feature (e.g., from "a photo of a
dog") could effectively represent its relevant image features (e.g., from dog
photos). Also, a recent study has demonstrated the cross-modal transferability
phenomenon of this joint space. From these observations, we propose
PromptStyler which simulates various distribution shifts in the joint space by
synthesizing diverse styles via prompts without using any images to deal with
source-free domain generalization. The proposed method learns to generate a
variety of style features (from "a S* style of a") via learnable style word
vectors for pseudo-words S*. To ensure that learned styles do not distort
content information, we force style-content features (from "a S* style of a
[class]") to be located nearby their corresponding content features (from
"[class]") in the joint vision-language space. After learning style word
vectors, we train a linear classifier using synthesized style-content features.
PromptStyler achieves the state of the art on PACS, VLCS, OfficeHome and
DomainNet, even though it does not require any images for training.
- Abstract(参考訳): 共同視覚言語空間では、テキスト機能(例:「犬の写真」から)はその関連画像の特徴(例:犬の写真から)を効果的に表現することができる。
また、最近の研究は、この関節空間のクロスモーダル移動可能性現象を実証している。
そこで,本研究では,多種多様なスタイルをプロンプトで合成し,ソースフリーなドメイン一般化を扱うことなく,様々な分散シフトをシミュレートするプロンプトスタイルを提案する。
提案手法は、擬似単語S*の学習可能なスタイルワードベクトルを用いて、様々なスタイル特徴(aのS*スタイルから)を生成することを学習する。
学習されたスタイルがコンテンツ情報を歪めないようにするため、スタイルコンテンツの特徴([クラス]のs*スタイルから)は、共用視覚言語空間内の対応するコンテンツ特徴([クラス]から)の近くに配置するよう強制します。
スタイル単語ベクトルを学習した後、合成スタイルコンテンツ特徴を用いて線形分類器を訓練する。
PromptStylerは、トレーニングにイメージを必要としないにも関わらず、PACS、VLCS、OfficeHome、DomainNetの最先端技術を実現している。
関連論文リスト
- Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences [49.66987347397398]
Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T04:26:01Z) - Sem-CS: Semantic CLIPStyler for Text-Based Image Style Transfer [4.588028371034406]
本稿ではセマンティックCLIPStyler(Semantic CLIPStyler)を提案する。
Sem-CSはまずコンテンツイメージを正当で非正当なオブジェクトに分割し、所定のスタイルのテキスト記述に基づいて芸術的なスタイルを転送する。
DISTS,NIMA,ユーザスタディスコアなどの実験結果から,提案手法は質的,定量的な性能に優れることが示された。
論文 参考訳(メタデータ) (2023-07-12T05:59:42Z) - Any-to-Any Style Transfer: Making Picasso and Da Vinci Collaborate [58.83278629019384]
スタイル転送は、コンテンツ参照のために、ある画像のスタイルを他の画像へのスタイル参照にレンダリングすることを目的としている。
既存のアプローチでは、スタイルイメージの全体的スタイルをグローバルな方法で適用するか、あるいは、スタイルイメージのローカル色とテクスチャを、事前に定義された方法でコンテンツに移行するかのいずれかである。
本稿では,Any-to-Any Style Transferを提案する。Any-to-Any Style Transferは,スタイル画像中の領域のスタイルを対話的に選択し,所定のコンテンツ領域に適用することができる。
論文 参考訳(メタデータ) (2023-04-19T15:15:36Z) - StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized
Tokenizer of a Large-Scale Generative Model [64.26721402514957]
本論文では,自然言語を用いて抽象芸術スタイルを記述するスタイル転送手法であるStylerDALLEを提案する。
具体的には、非自己回帰的なトークンシーケンス変換として、言語誘導型転送タスクを定式化する。
スタイル情報を組み込むために,CLIPに基づく言語指導による強化学習戦略を提案する。
論文 参考訳(メタデータ) (2023-03-16T12:44:44Z) - SEM-CS: Semantic CLIPStyler for Text-Based Image Style Transfer [4.588028371034406]
本稿ではセマンティックCLIPStyler(Semantic CLIPStyler)を提案する。
Sem-CSはまずコンテンツイメージを正当で非正当なオブジェクトに分割し、所定のスタイルのテキスト記述に基づいて芸術的なスタイルを転送する。
DISTS,NIMA,ユーザスタディスコアなどの実験結果から,提案手法は質的,定量的な性能に優れることが示された。
論文 参考訳(メタデータ) (2023-03-11T07:33:06Z) - Few-shot Font Generation by Learning Style Difference and Similarity [84.76381937516356]
異なるスタイルの違いと同一スタイルの類似性(DS-Font)を学習する新しいフォント生成手法を提案する。
具体的には,提案するクラスタレベルコントラシブ・スタイル(CCS)の損失により,スタイルエンコーディングを実現する多層型プロジェクタを提案する。
論文 参考訳(メタデータ) (2023-01-24T13:57:25Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - STALP: Style Transfer with Auxiliary Limited Pairing [36.23393954839379]
本稿では,1対のソース画像と,そのスタイリング画像を用いた画像の例ベーススタイリング手法を提案する。
本研究では,対象画像に対するリアルタイムな意味論的スタイル転送が可能な画像翻訳ネットワークの訓練方法を示す。
論文 参考訳(メタデータ) (2021-10-20T11:38:41Z) - Language-Driven Image Style Transfer [72.36790598245096]
我々は、テキストでガイドされたコンテンツイメージのスタイルを操作するための新しいタスク、言語駆動型イメージスタイル転送(textttLDIST)を導入する。
識別器は、スタイルイメージの言語とパッチの相関や、変換された結果の相関を考慮し、スタイル命令を共同で埋め込む。
実験により, CLVAは有効であり, textttLDIST 上で超高速に転送された結果が得られた。
論文 参考訳(メタデータ) (2021-06-01T01:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。