論文の概要: ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image
Generation
- arxiv url: http://arxiv.org/abs/2306.00971v1
- Date: Thu, 1 Jun 2023 17:58:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 13:48:55.822346
- Title: ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image
Generation
- Title(参考訳): vico: テキストから画像へのパーソナライズのためのディテール保存視覚条件
- Authors: Shaozhe Hao, Kai Han, Shihao Zhao, Kwan-Yee K. Wong
- Abstract要約: 高速かつ軽量なパーソナライズ生成のためのプラグインであるViCoを提案する。
パッチワイド・ビジュアル・セマンティクスに拡散過程を規定するイメージアテンション・モジュールを提案する。
さらに,テキスト・イメージ・アテンション・マップの本質的な特性に基づく簡易な正規化を設計し,オーバーフィッティング劣化を緩和する。
- 参考スコア(独自算出の注目度): 22.02888568451435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalized text-to-image generation using diffusion models has recently
been proposed and attracted lots of attention. Given a handful of images
containing a novel concept (e.g., a unique toy), we aim to tune the generative
model to capture fine visual details of the novel concept and generate
photorealistic images following a text condition. We present a plug-in method,
named ViCo, for fast and lightweight personalized generation. Specifically, we
propose an image attention module to condition the diffusion process on the
patch-wise visual semantics. We introduce an attention-based object mask that
comes almost at no cost from the attention module. In addition, we design a
simple regularization based on the intrinsic properties of text-image attention
maps to alleviate the common overfitting degradation. Unlike many existing
models, our method does not finetune any parameters of the original diffusion
model. This allows more flexible and transferable model deployment. With only
light parameter training (~6% of the diffusion U-Net), our method achieves
comparable or even better performance than all state-of-the-art models both
qualitatively and quantitatively.
- Abstract(参考訳): 近年,拡散モデルを用いたパーソナライズドテキスト・画像生成が提案され,注目を集めている。
新たな概念(例えばユニークなおもちゃ)を含む一握りの画像が与えられたとき、私たちは生成モデルをチューニングして、新しい概念の詳細な視覚的詳細を捉え、テキスト条件に従ってフォトリアリスティックな画像を生成することを目的としています。
高速かつ軽量なパーソナライズ生成のためのプラグインであるViCoを提案する。
具体的には,パッチワイズビジュアルセマンティクス上での拡散過程を条件としたイメージアテンションモジュールを提案する。
注目モジュールからはほとんどコストがかからないアテンションベースのオブジェクトマスクを導入する。
さらに,テキスト画像アテンションマップの固有特性に基づく単純な正規化をデザインし,オーバーフィット劣化を緩和する。
多くの既存モデルとは異なり、本手法は元の拡散モデルのパラメータを微調整しない。
これにより、より柔軟で転送可能なモデルデプロイメントが可能になる。
光パラメータのトレーニング(拡散u-netの約6%)だけで、質的にも量的にも全ての最先端モデルに匹敵する、あるいはさらに優れた性能が得られる。
関連論文リスト
- VILA-U: a Unified Foundation Model Integrating Visual Understanding and Generation [45.52926475981602]
VILA-Uは、ビデオ、画像、言語理解、生成を統合する統一基盤モデルである。
VILA-Uは、両方のタスクに1つの自動回帰的な次世代予測フレームワークを使用している。
論文 参考訳(メタデータ) (2024-09-06T17:49:56Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Emu: Enhancing Image Generation Models Using Photogenic Needles in a
Haystack [75.00066365801993]
Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。
これらの事前訓練されたモデルは、高度に美的な画像を生成することに関して、しばしば課題に直面します。
本稿では,高度に視覚的に魅力的な画像のみを生成するために,事前学習されたモデルを誘導する品質チューニングを提案する。
論文 参考訳(メタデータ) (2023-09-27T17:30:19Z) - BLIP-Diffusion: Pre-trained Subject Representation for Controllable
Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。
他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文 参考訳(メタデータ) (2023-05-24T04:51:04Z) - LaDI-VTON: Latent Diffusion Textual-Inversion Enhanced Virtual Try-On [35.4056826207203]
この研究は、仮想トライ-ONタスクのための最初のラテント拡散テキスト変換強化モデルであるLaDI-VTONを紹介する。
提案したアーキテクチャは、新しいオートエンコーダモジュールで拡張された潜在拡散モデルに依存している。
当社のアプローチは競争相手を一貫したマージンで上回り、そのタスクにおいて重要なマイルストーンを達成していることを示す。
論文 参考訳(メタデータ) (2023-05-22T21:38:06Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - DreamBooth: Fine Tuning Text-to-Image Diffusion Models for
Subject-Driven Generation [26.748667878221568]
テキスト・ツー・イメージ・モデルの「個人化」のための新しいアプローチを提案する。
トレーニング済みのテキスト・ツー・イメージモデルを微調整して、ユニークな識別子を特定の主題にバインドする。
次に、ユニークな識別子を使用して、異なるシーンでコンテキスト化された被写体の完全なフォトリアリスティック・ノーベル画像を合成することができる。
論文 参考訳(メタデータ) (2022-08-25T17:45:49Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。