論文の概要: IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image
Diffusion Models
- arxiv url: http://arxiv.org/abs/2308.06721v1
- Date: Sun, 13 Aug 2023 08:34:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 15:44:52.754024
- Title: IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image
Diffusion Models
- Title(参考訳): IP-Adapter:テキスト間拡散モデルのためのテキスト互換画像プロンプトアダプタ
- Authors: Hu Ye, Jun Zhang, Sibo Liu, Xiao Han, Wei Yang
- Abstract要約: テキストプロンプトの代替として、画像プロンプトがある。
我々は、事前訓練されたテキスト・画像拡散モデルに対して、画像のプロンプト機能を実現するための、効果的で軽量なアダプタであるIP-Adapterを提案する。
- 参考スコア(独自算出の注目度): 11.105763635691641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed the strong power of large text-to-image diffusion
models for the impressive generative capability to create high-fidelity images.
However, it is very tricky to generate desired images using only text prompt as
it often involves complex prompt engineering. An alternative to text prompt is
image prompt, as the saying goes: "an image is worth a thousand words".
Although existing methods of direct fine-tuning from pretrained models are
effective, they require large computing resources and are not compatible with
other base models, text prompt, and structural controls. In this paper, we
present IP-Adapter, an effective and lightweight adapter to achieve image
prompt capability for the pretrained text-to-image diffusion models. The key
design of our IP-Adapter is decoupled cross-attention mechanism that separates
cross-attention layers for text features and image features. Despite the
simplicity of our method, an IP-Adapter with only 22M parameters can achieve
comparable or even better performance to a fully fine-tuned image prompt model.
As we freeze the pretrained diffusion model, the proposed IP-Adapter can be
generalized not only to other custom models fine-tuned from the same base
model, but also to controllable generation using existing controllable tools.
With the benefit of the decoupled cross-attention strategy, the image prompt
can also work well with the text prompt to achieve multimodal image generation.
The project page is available at \url{https://ip-adapter.github.io}.
- Abstract(参考訳): 近年、高忠実度画像を作成するための印象的な生成能力のために、大きなテキスト・画像拡散モデルの強大な力を見てきた。
しかし、複雑なプロンプトエンジニアリングを伴う場合が多いため、テキストプロンプトのみを使用して所望の画像を生成するのは非常に難しい。
テキストプロンプトの代替として、画像プロンプトがある。
既存の訓練済みモデルから直接微調整する方法は有効であるが、大きな計算資源が必要であり、他のベースモデル、テキストプロンプト、構造制御と互換性がない。
本稿では,プリトレーニングされたテキストから画像への拡散モデルに対して,画像プロンプト機能を実現するための有効で軽量なアダプタであるip-adapterを提案する。
IP-Adapterの鍵となる設計は、テキスト機能と画像機能のためのクロスアテンション層を分離する分離されたクロスアテンションメカニズムである。
この方法の単純さにもかかわらず、パラメータが22mしかないipアダプタは、完全に微調整された画像プロンプトモデルと同等またはそれ以上の性能を達成できる。
事前学習した拡散モデルが凍結されると、提案するipアダプタは、同じベースモデルから微調整された他のカスタムモデルだけでなく、既存の制御可能なツールを使用して制御可能な生成にも一般化できる。
分離されたクロスアテンション戦略の利点により、画像プロンプトはテキストプロンプトとうまく連携してマルチモーダル画像生成を実現することができる。
プロジェクトページは \url{https://ip-adapter.github.io} で入手できる。
関連論文リスト
- Inv-Adapter: ID Customization Generation via Image Inversion and Lightweight Adapter [23.690420512911146]
Inv-Adapter は,DDIM 画像の逆変換により事前学習したテキスト・ツー・イメージモデルを用いて,ID 画像の拡散領域表現を抽出する。
抽出したIDの高アライメントとテキスト・ツー・イメージ・モデルの中間的特徴から、それらをベース・テキスト・ツー・イメージ・モデルに効率的に組み込む。
提案したInv-Adapterは,IDのカスタマイズ生成とモデルスケールにおいて高い競争力を持つことを示す。
論文 参考訳(メタデータ) (2024-06-05T02:59:08Z) - MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation [22.69019130782004]
フレキシブルなゼロショット機能を備えたオープン語彙でトレーニング不要なパーソナライズされたイメージモデルであるMoMAを紹介します。
特徴抽出器とジェネレータの両方に二重の役割を果たすために、MoMAをトレーニングします。
本稿では,画像拡散モデルに画像特徴を効率的に伝達する自己注意ショートカット手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T16:55:49Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - BLIP-Diffusion: Pre-trained Subject Representation for Controllable
Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。
他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文 参考訳(メタデータ) (2023-05-24T04:51:04Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。