論文の概要: Simultaneous Multiple-Prompt Guided Generation Using Differentiable
Optimal Transport
- arxiv url: http://arxiv.org/abs/2204.08472v1
- Date: Mon, 18 Apr 2022 03:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 02:16:52.285059
- Title: Simultaneous Multiple-Prompt Guided Generation Using Differentiable
Optimal Transport
- Title(参考訳): 微分可能な最適輸送を用いた同時多重プロンプト誘導生成
- Authors: Yingtao Tian and Marco Cuturi and David Ha
- Abstract要約: テキストキューから画像を生成することによって操作するテキスト・ツー・イメージ合成アプローチは、一点を論じる。
本稿では,最適輸送(OT)文献に見られるマッチング手法を用いて,多様なプロンプトを忠実に反映できる画像を提案する。
- 参考スコア(独自算出の注目度): 41.265684813975625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in deep learning, such as powerful generative models and
joint text-image embeddings, have provided the computational creativity
community with new tools, opening new perspectives for artistic pursuits.
Text-to-image synthesis approaches that operate by generating images from text
cues provide a case in point. These images are generated with a latent vector
that is progressively refined to agree with text cues. To do so, patches are
sampled within the generated image, and compared with the text prompts in the
common text-image embedding space; The latent vector is then updated, using
gradient descent, to reduce the mean (average) distance between these patches
and text cues. While this approach provides artists with ample freedom to
customize the overall appearance of images, through their choice in generative
models, the reliance on a simple criterion (mean of distances) often causes
mode collapse: The entire image is drawn to the average of all text cues,
thereby losing their diversity. To address this issue, we propose using
matching techniques found in the optimal transport (OT) literature, resulting
in images that are able to reflect faithfully a wide diversity of prompts. We
provide numerous illustrations showing that OT avoids some of the pitfalls
arising from estimating vectors with mean distances, and demonstrate the
capacity of our proposed method to perform better in experiments, qualitatively
and quantitatively.
- Abstract(参考訳): 強力な生成モデルや共同テキストイメージの埋め込みといったディープラーニングの最近の進歩は、計算創造性コミュニティに新しいツールを提供し、芸術的追求のための新たな視点を生み出している。
テキストキューから画像を生成することによって動作するテキストから画像への合成アプローチは、ポイントのケースを提供する。
これらの画像は、テキストキューに適合するように徐々に洗練される潜在ベクトルで生成される。
そのため、生成された画像内にパッチをサンプリングし、共通のテキストイメージ埋め込み空間内のテキストプロンプトと比較し、潜伏ベクトルを勾配降下を用いて更新し、これらのパッチとテキストキュー間の平均(平均)距離を減少させる。
このアプローチは、画像全体の外観をカスタマイズするための十分な自由を提供するが、生成モデルにおける選択を通じて、単純な基準(距離の単位)への依存は、しばしばモード崩壊を引き起こす。
この問題に対処するために,我々は最適なトランスポート (ot) の文献に見られるマッチング手法を用いて,多種多様なプロンプトを忠実に反映できる画像を提案する。
我々は,otが平均距離のベクトル推定から生じる落とし穴のいくつかを回避し,提案手法が実験において質的かつ定量的に優れた性能を発揮することを示す多くの例を示す。
関連論文リスト
- Prompting Hard or Hardly Prompting: Prompt Inversion for Text-to-Image
Diffusion Models [46.18013380882767]
この研究は、解釈可能な言語プロンプトを直接得るために拡散モデルを反転させることに焦点を当てている。
拡散過程の異なる時間ステップが、画像の異なる詳細レベルに適合するという知見を活用する。
提案手法は,対象画像に対して意味論的に解釈可能かつ有意義なプロンプトを識別できることを示す。
論文 参考訳(メタデータ) (2023-12-19T18:47:30Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - Towards Real-time Text-driven Image Manipulation with Unconditional
Diffusion Models [33.993466872389085]
画像操作を4.5~10倍高速に学習し、8倍高速に適用するアルゴリズムを開発した。
提案手法では,事前学習したモデルをユーザの指定した画像やテキスト記述にわずか4秒で適用することができる。
論文 参考訳(メタデータ) (2023-04-10T01:21:56Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。