論文の概要: ViCo: Plug-and-play Visual Condition for Personalized Text-to-image
Generation
- arxiv url: http://arxiv.org/abs/2306.00971v2
- Date: Thu, 7 Dec 2023 17:49:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 18:48:21.737115
- Title: ViCo: Plug-and-play Visual Condition for Personalized Text-to-image
Generation
- Title(参考訳): vico:パーソナライズされたテキスト対画像生成のためのプラグイン・アンド・プレイ視覚条件
- Authors: Shaozhe Hao, Kai Han, Shihao Zhao, Kwan-Yee K. Wong
- Abstract要約: 視覚状態をパーソナライズしたテキスト・ツー・イメージ生成にシームレスに統合する,軽量なプラグイン・アンド・プレイ方式であるViCoを提案する。
ViCoは独自の特徴として、オリジナルの拡散モデルパラメータの微調整を必要としない点を挙げている。
ViCoは、質的にも量的にも、すべての最先端モデルに匹敵するパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 22.608957437064213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalized text-to-image generation using diffusion models has recently
emerged and garnered significant interest. This task learns a novel concept
(e.g., a unique toy), illustrated in a handful of images, into a generative
model that captures fine visual details and generates photorealistic images
based on textual embeddings. In this paper, we present ViCo, a novel
lightweight plug-and-play method that seamlessly integrates visual condition
into personalized text-to-image generation. ViCo stands out for its unique
feature of not requiring any fine-tuning of the original diffusion model
parameters, thereby facilitating more flexible and scalable model deployment.
This key advantage distinguishes ViCo from most existing models that
necessitate partial or full diffusion fine-tuning. ViCo incorporates an image
attention module that conditions the diffusion process on patch-wise visual
semantics, and an attention-based object mask that comes at no extra cost from
the attention module. Despite only requiring light parameter training (~6%
compared to the diffusion U-Net), ViCo delivers performance that is on par
with, or even surpasses, all state-of-the-art models, both qualitatively and
quantitatively. This underscores the efficacy of ViCo, making it a highly
promising solution for personalized text-to-image generation without the need
for diffusion model fine-tuning. Code: https://github.com/haoosz/ViCo
- Abstract(参考訳): 拡散モデルを用いたパーソナライズされたテキストから画像への生成が最近登場し、大きな関心を集めている。
このタスクは、一握りの画像に描かれた新しい概念(例えばユニークなおもちゃ)を、細かい視覚詳細をキャプチャし、テキスト埋め込みに基づいてフォトリアリスティックな画像を生成する生成モデルに学習する。
本稿では,視覚条件をテキスト対画像生成にシームレスに統合する新しい軽量プラグイン・アンド・プレイ方式であるvicoを提案する。
ViCoのユニークな特徴は、オリジナルの拡散モデルパラメータを微調整する必要がなく、より柔軟でスケーラブルなモデルデプロイメントを容易にすることだ。
この重要な利点は、部分的または完全な拡散微調整を必要とする既存のモデルとViCoを区別する。
ViCoには、パッチワイドな視覚的セマンティクス上で拡散プロセスを実行するイメージアテンションモジュールと、アテンションモジュールから余分なコストを伴わないアテンションベースのオブジェクトマスクが含まれている。
軽量パラメータトレーニング(拡散U-Netと比較して約6%)のみを必要とするにもかかわらず、ViCoは、定性的にも定量的にも、すべての最先端モデルに匹敵するパフォーマンスを提供する。
これによってvicoの有効性が低下し、拡散モデルの微調整を必要とせず、パーソナライズされたテキストから画像への生成に非常に有望なソリューションとなる。
コード:https://github.com/haoosz/ViCo
関連論文リスト
- VILA-U: a Unified Foundation Model Integrating Visual Understanding and Generation [45.52926475981602]
VILA-Uは、ビデオ、画像、言語理解、生成を統合する統一基盤モデルである。
VILA-Uは、両方のタスクに1つの自動回帰的な次世代予測フレームワークを使用している。
論文 参考訳(メタデータ) (2024-09-06T17:49:56Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Emu: Enhancing Image Generation Models Using Photogenic Needles in a
Haystack [75.00066365801993]
Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。
これらの事前訓練されたモデルは、高度に美的な画像を生成することに関して、しばしば課題に直面します。
本稿では,高度に視覚的に魅力的な画像のみを生成するために,事前学習されたモデルを誘導する品質チューニングを提案する。
論文 参考訳(メタデータ) (2023-09-27T17:30:19Z) - BLIP-Diffusion: Pre-trained Subject Representation for Controllable
Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。
他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文 参考訳(メタデータ) (2023-05-24T04:51:04Z) - LaDI-VTON: Latent Diffusion Textual-Inversion Enhanced Virtual Try-On [35.4056826207203]
この研究は、仮想トライ-ONタスクのための最初のラテント拡散テキスト変換強化モデルであるLaDI-VTONを紹介する。
提案したアーキテクチャは、新しいオートエンコーダモジュールで拡張された潜在拡散モデルに依存している。
当社のアプローチは競争相手を一貫したマージンで上回り、そのタスクにおいて重要なマイルストーンを達成していることを示す。
論文 参考訳(メタデータ) (2023-05-22T21:38:06Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - DreamBooth: Fine Tuning Text-to-Image Diffusion Models for
Subject-Driven Generation [26.748667878221568]
テキスト・ツー・イメージ・モデルの「個人化」のための新しいアプローチを提案する。
トレーニング済みのテキスト・ツー・イメージモデルを微調整して、ユニークな識別子を特定の主題にバインドする。
次に、ユニークな識別子を使用して、異なるシーンでコンテキスト化された被写体の完全なフォトリアリスティック・ノーベル画像を合成することができる。
論文 参考訳(メタデータ) (2022-08-25T17:45:49Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。