論文の概要: An Image is Worth One Word: Personalizing Text-to-Image Generation using
Textual Inversion
- arxiv url: http://arxiv.org/abs/2208.01618v1
- Date: Tue, 2 Aug 2022 17:50:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-03 12:45:16.899704
- Title: An Image is Worth One Word: Personalizing Text-to-Image Generation using
Textual Inversion
- Title(参考訳): 画像は1語の価値:テキストインバージョンによるテキスト対画像生成のパーソナライズ
- Authors: Rinon Gal, Yuval Alaluf, Yuval Atzmon, Or Patashnik, Amit H. Bermano,
Gal Chechik, Daniel Cohen-Or
- Abstract要約: テキスト・ツー・イメージモデルは、自然言語による創造をガイドする前例のない自由を提供する。
ここでは、そのような創造的な自由を可能にするシンプルなアプローチを提示します。
一つの単語の埋め込みが、ユニークで多様な概念を捉えるのに十分であることを示す。
- 参考スコア(独自算出の注目度): 60.05823240540769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image models offer unprecedented freedom to guide creation through
natural language. Yet, it is unclear how such freedom can be exercised to
generate images of specific unique concepts, modify their appearance, or
compose them in new roles and novel scenes. In other words, we ask: how can we
use language-guided models to turn our cat into a painting, or imagine a new
product based on our favorite toy? Here we present a simple approach that
allows such creative freedom. Using only 3-5 images of a user-provided concept,
like an object or a style, we learn to represent it through new "words" in the
embedding space of a frozen text-to-image model. These "words" can be composed
into natural language sentences, guiding personalized creation in an intuitive
way. Notably, we find evidence that a single word embedding is sufficient for
capturing unique and varied concepts. We compare our approach to a wide range
of baselines, and demonstrate that it can more faithfully portray the concepts
across a range of applications and tasks.
Our code, data and new words will be available at:
https://textual-inversion.github.io
- Abstract(参考訳): テキストから画像へのモデルは、自然言語による創造を導く前例のない自由を提供する。
しかし、そのような自由が、特定のユニークな概念のイメージを生成し、その外観を変更したり、新しい役柄や新しい場面で構成したりするためにどのように行使できるかは不明である。
言い換えれば、言語誘導モデルを使って猫を絵に変えたり、お気に入りのおもちゃをベースとした新製品を想像したりできるのでしょうか?
ここでは,このような創造的自由を許容する簡単なアプローチを提案する。
オブジェクトやスタイルなど,ユーザが提供する概念の3~5イメージのみを使用して,凍結したテキスト・ツー・イメージモデルの埋め込み空間において,新たな"ワード"を通じて表現することを学ぶ。
これらの単語は自然言語の文に構成することができ、直感的にパーソナライズされた創造を導く。
特に、単一の単語埋め込みが一意で多様な概念を捉えるのに十分であることを示す証拠を見つける。
当社のアプローチを幅広いベースラインと比較し、さまざまなアプリケーションやタスクの概念をより忠実に表現できることを示しています。
私たちのコード、データ、新しい単語は、https://textual-inversion.github.ioで利用可能になります。
関連論文リスト
- Training-free Editioning of Text-to-Image Models [47.32550822603952]
テキスト・ツー・イメージ・モデルのための新しいタスク、すなわち、トレーニング不要のエディションを提案する。
我々は,リトレーニングを伴わずに,ベースとなるテキスト・ツー・イメージモデルのバリエーションを作成することを目的としている。
提案したエディションのパラダイムにより、サービスプロバイダはベースモデルを"cat edition"にカスタマイズすることができます。
論文 参考訳(メタデータ) (2024-05-27T11:40:50Z) - Lego: Learning to Disentangle and Invert Personalized Concepts Beyond Object Appearance in Text-to-Image Diffusion Models [60.80960965051388]
形容詞と動詞は名詞で絡み合っている(目的語)
レゴは、シンプルだが効果的な対象分離ステップを使用して、関連する主題から概念を分離する。
レゴで作られたコンセプトは、ベースラインと比較して70%以上好まれていた。
論文 参考訳(メタデータ) (2023-11-23T07:33:38Z) - An Image is Worth Multiple Words: Discovering Object Level Concepts using Multi-Concept Prompt Learning [8.985668637331335]
テクスチュラル・インバージョンは、画像のスタイルと外観を表現するために、新しい「単語」を埋め込む特異テキストを学習する。
我々は,複数の未知の単語を1つの文と画像のペアから同時に学習する,MCPL(Multi-Concept Prompt Learning)を導入する。
当社のアプローチでは,テキスト埋め込みのみから学習することを重視しており,ストレージスペースの10%未満を他と比較して使用しています。
論文 参考訳(メタデータ) (2023-10-18T19:18:19Z) - Create Your World: Lifelong Text-to-Image Diffusion [75.14353789007902]
本稿では,過去の概念の「破滅的忘れ」を克服するために,ライフロングテキスト・画像拡散モデル(L2DM)を提案する。
我々のL2DMフレームワークは,知識の「破滅的忘れ」に関して,タスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。
我々のモデルは、質的および定量的な指標の両方の観点から、連続的なテキストプロンプトの範囲にわたって、より忠実な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-08T16:45:56Z) - Backdooring Textual Inversion for Concept Censorship [34.84218971929207]
本稿では、テキスト・インバージョン(TI)と呼ばれるパーソナライズ技術に焦点を当てる。
TIは特定のオブジェクトに関する詳細な情報を含む単語を埋め込む。
TIモデルの概念検閲を実現するために, TI埋め込みにバックドアを注入することを提案する。
論文 参考訳(メタデータ) (2023-08-21T13:39:04Z) - Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。
より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - Learning to Imagine: Visually-Augmented Natural Language Generation [73.65760028876943]
本稿では,事前学習型言語モデル(PLM)を視覚的に拡張した自然言語gEnerationのために学習する手法を提案する。
拡散モデルを用いて、入力テキストに条件付き高品質な画像を合成する。
段落全体に対して1つの画像のみを生成するのではなく、各文に対して合成を行う。
論文 参考訳(メタデータ) (2023-05-26T13:59:45Z) - Multimodal Few-Shot Learning with Frozen Language Models [36.75551859968596]
我々は視覚エンコーダを訓練し、各画像を連続的な埋め込みの列として表現し、この接頭辞で誘導される事前学習された凍結言語モデルが適切なキャプションを生成するようにした。
得られたシステムはマルチモーダルな数ショット学習者であり、実例で条件付けされた場合、驚くほど多くの新しいタスクを学習できる。
論文 参考訳(メタデータ) (2021-06-25T21:07:09Z) - Describe What to Change: A Text-guided Unsupervised Image-to-Image
Translation Approach [84.22327278486846]
本稿では,画像から画像への変換に基づく新しい教師なしの手法を提案する。
本モデルは視覚的属性から画像内容を切り離し,テキスト記述を用いて後者を変更することを学習する。
実験により,提案モデルが2つの大規模公開データセットに対して有望な性能を達成することを示す。
論文 参考訳(メタデータ) (2020-08-10T15:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。