論文の概要: StyleMC: Multi-Channel Based Fast Text-Guided Image Generation and
Manipulation
- arxiv url: http://arxiv.org/abs/2112.08493v1
- Date: Wed, 15 Dec 2021 21:37:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 14:17:50.037807
- Title: StyleMC: Multi-Channel Based Fast Text-Guided Image Generation and
Manipulation
- Title(参考訳): StyleMC: マルチチャネルベースの高速テキストガイド画像生成と操作
- Authors: Umut Kocasari, Alara Dirik, Mert Tiftikci and Pinar Yanardag
- Abstract要約: StyleMCはテキスト駆動による画像生成と操作を高速かつ効率的に行う方法である。
提案手法の有効性を実証し,最先端手法と比較する。
- 参考スコア(独自算出の注目度): 0.02294014185517203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discovering meaningful directions in the latent space of GANs to manipulate
semantic attributes typically requires large amounts of labeled data. Recent
work aims to overcome this limitation by leveraging the power of Contrastive
Language-Image Pre-training (CLIP), a joint text-image model. While promising,
these methods require several hours of preprocessing or training to achieve the
desired manipulations. In this paper, we present StyleMC, a fast and efficient
method for text-driven image generation and manipulation. StyleMC uses a
CLIP-based loss and an identity loss to manipulate images via a single text
prompt without significantly affecting other attributes. Unlike prior work,
StyleMC requires only a few seconds of training per text prompt to find stable
global directions, does not require prompt engineering and can be used with any
pre-trained StyleGAN2 model. We demonstrate the effectiveness of our method and
compare it to state-of-the-art methods. Our code can be found at
http://catlab-team.github.io/stylemc.
- Abstract(参考訳): 意味属性を操作するためにganの潜在空間で意味のある方向を見つけるには、通常、大量のラベル付きデータが必要である。
最近の研究は、コントラスト言語-画像事前学習(CLIP)の力を利用して、この制限を克服することを目的としている。
有望だが、これらの手法は所望の操作を達成するのに数時間の事前処理やトレーニングを必要とする。
本稿では,テキスト駆動画像生成と操作を高速かつ効率的に行うStyleMCを提案する。
StyleMCはCLIPベースの損失とアイデンティティ損失を使用して、他の属性に大きな影響を及ぼすことなく、単一のテキストプロンプトを介してイメージを操作する。
以前の作業とは異なり、stylemcはテキスト毎のプロンプトで安定したグローバル方向を見つけるのにほんの数秒のトレーニングしか必要とせず、プロンプトエンジニアリングは必要とせず、プレトレーニングされたstylegan2モデルでも使用できる。
提案手法の有効性を実証し,最先端手法と比較する。
私たちのコードはhttp://catlab-team.github.io/stylemc.orgで参照できます。
関連論文リスト
- Jina CLIP: Your CLIP Model Is Also Your Text Retriever [5.110454439882224]
Contrastive Language-Image Pretraining (CLIP) は、一般的な埋め込み空間における画像とテキストを固定サイズのベクトルにマッピングすることで、モデルをトレーニングするために広く使われている。
本稿では,この問題に対処する新しいマルチタスクコントラストトレーニング手法を提案し,テキスト画像とテキストテキスト検索の両タスクにおける最先端性能を実現するために,jina-clip-v1モデルをトレーニングするために使用する。
論文 参考訳(メタデータ) (2024-05-30T16:07:54Z) - Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。
我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文 参考訳(メタデータ) (2024-04-05T13:44:39Z) - The CLIP Model is Secretly an Image-to-Prompt Converter [26.92989288717742]
本稿は,CLIPモデルが安定拡散で利用されるように,画像のテキストプロンプトへの即時変換機能を備えていることを実証する。
このような画像からプロンプトへの変換は、閉形式で計算される線形射影行列を利用することで実現できる。
論文 参考訳(メタデータ) (2023-05-22T04:52:12Z) - StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized
Tokenizer of a Large-Scale Generative Model [64.26721402514957]
本論文では,自然言語を用いて抽象芸術スタイルを記述するスタイル転送手法であるStylerDALLEを提案する。
具体的には、非自己回帰的なトークンシーケンス変換として、言語誘導型転送タスクを定式化する。
スタイル情報を組み込むために,CLIPに基づく言語指導による強化学習戦略を提案する。
論文 参考訳(メタデータ) (2023-03-16T12:44:44Z) - Towards Arbitrary Text-driven Image Manipulation via Space Alignment [49.3370305074319]
スペースアライメント(TMSA)を用いた新しいテキスト駆動画像操作フレームワークを提案する。
TMSAはCLIPとStyleGAN空間で同じセマンティック領域を整列することを目的としている。
このフレームワークは、追加コストなしで任意の画像編集モードをサポートすることができる。
論文 参考訳(メタデータ) (2023-01-25T16:20:01Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z) - Text-Only Training for Image Captioning using Noise-Injected CLIP [23.384962328773753]
トレーニング時にCLIPモデルと追加テキストデータのみを用いた画像キャプチャのタスクについて検討する。
私たちのアプローチは、CLIPがビジュアルとテキストの埋め込みを類似させるように訓練されているという事実に依存しています。
論文 参考訳(メタデータ) (2022-11-01T16:36:01Z) - One Model to Edit Them All: Free-Form Text-Driven Image Manipulation
with Semantic Modulations [75.81725681546071]
Free-Form CLIPは、ある操作モデルがフリーフォームのテキストプロンプトを処理するように、自動ラテントマッピングを確立することを目的としている。
1種類の画像(例えば人間の肖像画)に対して、1つのFFCLIPモデルは自由形式のテキストプロンプトを扱うために学習することができる。
視覚的および数値的な結果は、FFCLIPが意味的に正確で視覚的にリアルなイメージを効果的に生成することを示している。
論文 参考訳(メタデータ) (2022-10-14T15:06:05Z) - LDEdit: Towards Generalized Text Guided Image Manipulation via Latent
Diffusion Models [12.06277444740134]
フレキシブルテキスト入力を持つ単一モデルを用いた汎用画像操作は非常に望ましい。
最近の研究は、事前学習された視覚言語エンコーダを用いて、ジェネリックイメージで訓練された生成モデルを導くことで、この課題に対処している。
本稿では,テキストプロンプトから画像の汎用的な操作を行うための最適化不要な手法を提案する。
論文 参考訳(メタデータ) (2022-10-05T13:26:15Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。