論文の概要: Learning Input-agnostic Manipulation Directions in StyleGAN with Text
Guidance
- arxiv url: http://arxiv.org/abs/2302.13331v1
- Date: Sun, 26 Feb 2023 15:08:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 17:45:34.478727
- Title: Learning Input-agnostic Manipulation Directions in StyleGAN with Text
Guidance
- Title(参考訳): テキスト指導によるスタイルガンの入力非依存操作方向の学習
- Authors: Yoonjeon Kim, Hyunsu Kim, Junho Kim, Yunjey Choi, Eunho Yang
- Abstract要約: 最先端のテキスト誘導画像認識操作法は,StyleGANの各チャネルの表現を独立して埋め込む。
複数チャンネル間の相互関係が考慮されないため,本辞書はテキストガイダンスの汎用性に制限されている。
本稿では,複数の他のチャネルとの相互作用から生じる操作効果を考慮し,単一のチャネルの表現に対応する辞書を学習する手法を提案する。
- 参考スコア(独自算出の注目度): 36.64976779253954
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the advantages of fast inference and human-friendly flexible
manipulation, image-agnostic style manipulation via text guidance enables new
applications that were not previously available. The state-of-the-art
text-guided image-agnostic manipulation method embeds the representation of
each channel of StyleGAN independently in the Contrastive Language-Image
Pre-training (CLIP) space, and provides it in the form of a Dictionary to
quickly find out the channel-wise manipulation direction during inference time.
However, in this paper we argue that this dictionary which is constructed by
controlling single channel individually is limited to accommodate the
versatility of text guidance since the collective and interactive relation
among multiple channels are not considered. Indeed, we show that it fails to
discover a large portion of manipulation directions that can be found by
existing methods, which manually manipulates latent space without texts. To
alleviate this issue, we propose a novel method that learns a Dictionary, whose
entry corresponds to the representation of a single channel, by taking into
account the manipulation effect coming from the interaction with multiple other
channels. We demonstrate that our strategy resolves the inability of previous
methods in finding diverse known directions from unsupervised methods and
unknown directions from random text while maintaining the real-time inference
speed and disentanglement ability.
- Abstract(参考訳): 高速推論とヒューマンフレンドリーな柔軟な操作の利点により、テキストガイダンスによる画像に依存しないスタイル操作は、これまで利用できなかった新しいアプリケーションを可能にする。
言語-画像事前学習(CLIP)空間に独立して、StyleGANの各チャネルの表現を埋め込んだ最先端のテキスト誘導画像認識操作法を辞書形式で提供し、推論時間中のチャネル操作方向を迅速に把握する。
しかし,本論文では,単一チャンネルを個別に制御して構築した辞書は,複数のチャンネル間の集団的・対話的関係を考慮しないため,テキストガイダンスの汎用性に配慮できる。
実際、テキストなしでは潜在空間を手動で操作する既存の方法によって見つけられる操作方向の大部分が発見できないことが示されている。
この問題を軽減するために,複数の他のチャネルとの相互作用から生じる操作効果を考慮し,単一のチャネルの表現に対応する辞書を学習する新しい手法を提案する。
提案手法は,教師なし手法やランダムテキストからの未知方向から,リアルタイムの推論速度と非絡み合い能力を維持しつつ,様々な未知方向を検出できないことを実証する。
関連論文リスト
- Action Controlled Paraphrasing [3.332140622816069]
具体的には、ユーザ意図をアクショントークンとして表現し、それらをテキスト埋め込みと結合する。
提案手法では,ユーザの意図したアクションが提供されない場合に,モデルが適切なアクションを独立して決定することを奨励するプレースホルダーとして,任意のアクショントークンを導入する。
論文 参考訳(メタデータ) (2024-05-18T12:26:31Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Readout Guidance: Learning Control from Diffusion Features [96.22155562120231]
本稿では,学習信号を用いたテキスト・画像拡散モデル制御手法であるReadout Guidanceを提案する。
Readout Guidanceはリードアウトヘッドを使用し、トレーニング済みの凍結拡散モデルの特徴から信号を取り出すために訓練された軽量ネットワークである。
これらの読み出しは、ポーズ、深さ、エッジなどのシングルイメージ特性や、対応性や外観類似性といった複数の画像に関連する高次特性を符号化することができる。
論文 参考訳(メタデータ) (2023-12-04T18:59:32Z) - LDEdit: Towards Generalized Text Guided Image Manipulation via Latent
Diffusion Models [12.06277444740134]
フレキシブルテキスト入力を持つ単一モデルを用いた汎用画像操作は非常に望ましい。
最近の研究は、事前学習された視覚言語エンコーダを用いて、ジェネリックイメージで訓練された生成モデルを導くことで、この課題に対処している。
本稿では,テキストプロンプトから画像の汎用的な操作を行うための最適化不要な手法を提案する。
論文 参考訳(メタデータ) (2022-10-05T13:26:15Z) - StyleMC: Multi-Channel Based Fast Text-Guided Image Generation and
Manipulation [0.02294014185517203]
StyleMCはテキスト駆動による画像生成と操作を高速かつ効率的に行う方法である。
提案手法の有効性を実証し,最先端手法と比較する。
論文 参考訳(メタデータ) (2021-12-15T21:37:10Z) - A Plug-and-Play Method for Controlled Text Generation [38.283313068622085]
制御言語生成のためのプラグイン・アンド・プレイ復号法を提案する。
このアプローチの単純さにもかかわらず、実際に驚くほどうまく機能しているのが分かります。
論文 参考訳(メタデータ) (2021-09-20T17:27:03Z) - Transductive Learning for Unsupervised Text Style Transfer [60.65782243927698]
教師なしスタイル転送モデルは、主に帰納的学習アプローチに基づいている。
本稿では,検索に基づく文脈認識スタイルの表現に基づく新しいトランスダクティブ学習手法を提案する。
論文 参考訳(メタデータ) (2021-09-16T08:57:20Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。