Fugu-MT 論文翻訳(概要): IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

論文の概要: IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

arxiv url: http://arxiv.org/abs/2308.06721v1
Date: Sun, 13 Aug 2023 08:34:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-15 15:44:52.754024
Title: IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models
Title（参考訳）: IP-Adapter:テキスト間拡散モデルのためのテキスト互換画像プロンプトアダプタ
Authors: Hu Ye, Jun Zhang, Sibo Liu, Xiao Han, Wei Yang
Abstract要約: テキストプロンプトの代替として、画像プロンプトがある。我々は、事前訓練されたテキスト・画像拡散モデルに対して、画像のプロンプト機能を実現するための、効果的で軽量なアダプタであるIP-Adapterを提案する。
参考スコア（独自算出の注目度）: 11.105763635691641
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent years have witnessed the strong power of large text-to-image diffusion models for the impressive generative capability to create high-fidelity images. However, it is very tricky to generate desired images using only text prompt as it often involves complex prompt engineering. An alternative to text prompt is image prompt, as the saying goes: "an image is worth a thousand words". Although existing methods of direct fine-tuning from pretrained models are effective, they require large computing resources and are not compatible with other base models, text prompt, and structural controls. In this paper, we present IP-Adapter, an effective and lightweight adapter to achieve image prompt capability for the pretrained text-to-image diffusion models. The key design of our IP-Adapter is decoupled cross-attention mechanism that separates cross-attention layers for text features and image features. Despite the simplicity of our method, an IP-Adapter with only 22M parameters can achieve comparable or even better performance to a fully fine-tuned image prompt model. As we freeze the pretrained diffusion model, the proposed IP-Adapter can be generalized not only to other custom models fine-tuned from the same base model, but also to controllable generation using existing controllable tools. With the benefit of the decoupled cross-attention strategy, the image prompt can also work well with the text prompt to achieve multimodal image generation. The project page is available at \url{https://ip-adapter.github.io}.
Abstract（参考訳）: 近年、高忠実度画像を作成するための印象的な生成能力のために、大きなテキスト・画像拡散モデルの強大な力を見てきた。しかし、複雑なプロンプトエンジニアリングを伴う場合が多いため、テキストプロンプトのみを使用して所望の画像を生成するのは非常に難しい。テキストプロンプトの代替として、画像プロンプトがある。既存の訓練済みモデルから直接微調整する方法は有効であるが、大きな計算資源が必要であり、他のベースモデル、テキストプロンプト、構造制御と互換性がない。本稿では,プリトレーニングされたテキストから画像への拡散モデルに対して,画像プロンプト機能を実現するための有効で軽量なアダプタであるip-adapterを提案する。 IP-Adapterの鍵となる設計は、テキスト機能と画像機能のためのクロスアテンション層を分離する分離されたクロスアテンションメカニズムである。この方法の単純さにもかかわらず、パラメータが22mしかないipアダプタは、完全に微調整された画像プロンプトモデルと同等またはそれ以上の性能を達成できる。事前学習した拡散モデルが凍結されると、提案するipアダプタは、同じベースモデルから微調整された他のカスタムモデルだけでなく、既存の制御可能なツールを使用して制御可能な生成にも一般化できる。分離されたクロスアテンション戦略の利点により、画像プロンプトはテキストプロンプトとうまく連携してマルチモーダル画像生成を実現することができる。プロジェクトページは \url{https://ip-adapter.github.io} で入手できる。

関連論文リスト

Conceptrol: Concept Control of Zero-shot Personalized Image Generation [36.39574513193442]
Conceptrolは、計算オーバーヘッドを追加することなくゼロショットアダプタを強化するフレームワークである。バニラIPアダプタよりも、パーソナライズベンチマークが最大89%改善されている。
論文参考訳（メタデータ） (2025-03-09T11:54:08Z)
UNIC-Adapter: Unified Image-instruction Adapter with Multi-modal Transformer for Image Generation [64.8341372591993]
一つのフレームワーク内で制御可能な生成を統一するための新しいアプローチを提案する。具体的には,Multi-Modal-Diffusion Transformerアーキテクチャ上に構築された統合イメージインストラクションアダプタ(UNIC-Adapter)を提案する。 UNIC-Adapterは条件付き画像とタスク命令の両方を組み込んだマルチモーダル命令情報を効果的に抽出する。
論文参考訳（メタデータ） (2024-12-25T15:19:02Z)
Inv-Adapter: ID Customization Generation via Image Inversion and Lightweight Adapter [23.690420512911146]
Inv-Adapter は,DDIM 画像の逆変換により事前学習したテキスト・ツー・イメージモデルを用いて,ID 画像の拡散領域表現を抽出する。抽出したIDの高アライメントとテキスト・ツー・イメージ・モデルの中間的特徴から、それらをベース・テキスト・ツー・イメージ・モデルに効率的に組み込む。提案したInv-Adapterは,IDのカスタマイズ生成とモデルスケールにおいて高い競争力を持つことを示す。
論文参考訳（メタデータ） (2024-06-05T02:59:08Z)
MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation [22.69019130782004]
フレキシブルなゼロショット機能を備えたオープン語彙でトレーニング不要なパーソナライズされたイメージモデルであるMoMAを紹介します。特徴抽出器とジェネレータの両方に二重の役割を果たすために、MoMAをトレーニングします。本稿では,画像拡散モデルに画像特徴を効率的に伝達する自己注意ショートカット手法を提案する。
論文参考訳（メタデータ） (2024-04-08T16:55:49Z)
Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文参考訳（メタデータ） (2023-05-26T19:22:03Z)
BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文参考訳（メタデータ） (2023-05-24T04:51:04Z)
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文参考訳（メタデータ） (2023-05-23T03:59:06Z)
If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文参考訳（メタデータ） (2023-05-22T17:59:41Z)
SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文参考訳（メタデータ） (2023-05-09T05:48:38Z)
LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文参考訳（メタデータ） (2021-11-27T01:54:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。