論文の概要: T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for
Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2302.08453v2
- Date: Mon, 20 Mar 2023 10:52:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 23:56:56.079045
- Title: T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for
Text-to-Image Diffusion Models
- Title(参考訳): T2I-Adapter:テキスト・画像拡散モデルにおける制御性向上のための学習アダプタ
- Authors: Chong Mou, Xintao Wang, Liangbin Xie, Yanze Wu, Jian Zhang, Zhongang
Qi, Ying Shan, Xiaohu Qie
- Abstract要約: 我々は、T2Iモデルの内部知識を外部制御信号と整合させるため、シンプルで軽量なT2I-Adapterを学習する。
私たちのT2I-Adapterは、将来性のある生成品質と幅広いアプリケーションを持っています。
- 参考スコア(独自算出の注目度): 29.280739915676737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The incredible generative ability of large-scale text-to-image (T2I) models
has demonstrated strong power of learning complex structures and meaningful
semantics. However, relying solely on text prompts cannot fully take advantage
of the knowledge learned by the model, especially when flexible and accurate
controlling (e.g., color and structure) is needed. In this paper, we aim to
``dig out" the capabilities that T2I models have implicitly learned, and then
explicitly use them to control the generation more granularly. Specifically, we
propose to learn simple and lightweight T2I-Adapters to align internal
knowledge in T2I models with external control signals, while freezing the
original large T2I models. In this way, we can train various adapters according
to different conditions, achieving rich control and editing effects in the
color and structure of the generation results. Further, the proposed
T2I-Adapters have attractive properties of practical value, such as
composability and generalization ability. Extensive experiments demonstrate
that our T2I-Adapter has promising generation quality and a wide range of
applications.
- Abstract(参考訳): 大規模テキスト・ツー・イメージ(t2i)モデルの驚くべき生成能力は、複雑な構造と意味意味論を学ぶ強力な力を示している。
しかし、特に柔軟で正確な制御(色や構造など)が必要な場合、テキストプロンプトにのみ依存することは、モデルから学んだ知識を十分に活用することはできない。
本稿では,T2I モデルが暗黙的に学習した能力の "dig out" を目標とし,それを用いてより粒度の細かい生成を制御する。
具体的には,T2Iモデルの内部知識を外部制御信号と整合させながら,元の大規模T2Iモデルを凍結する,シンプルで軽量なT2Iアダプタを提案する。
このようにして、異なる条件で様々なアダプタを訓練し、生成結果の色と構造に対するリッチな制御と編集効果を実現することができる。
さらに,提案したT2I-Adaptersは,構成性や一般化能力など,実用価値の魅力的な特性を有する。
大規模な実験により、我々のT2I-Adapterは、将来有望な生成品質と幅広い応用を実証した。
関連論文リスト
- TED-VITON: Transformer-Empowered Diffusion Models for Virtual Try-On [78.33688031340698]
TED-VITONはGarment Semantic (GS) Adapter(ガーメント・セマンティック・アダプタ)を統合した新しいフレームワークである。衣料特化機能を強化するためのテキスト保存損失(Text Preservation Loss)と、大規模言語モデル(LLM)を最適化してプロンプトを生成する制約機構を備えている。
これらのイノベーションにより、視覚的品質とテキストの忠実さにおける最先端(SOTA)のパフォーマンスが実現され、仮想トライオンタスクの新たなベンチマークが確立される。
論文 参考訳(メタデータ) (2024-11-26T01:00:09Z) - FBSDiff: Plug-and-Play Frequency Band Substitution of Diffusion Features for Highly Controllable Text-Driven Image Translation [19.65838242227773]
本稿では,大規模テキスト・ツー・イメージ(T2I)拡散モデルとイメージ・ツー・イメージ(I2I)パラダイムをプラグ・アンド・プレイ方式で適用する,新しい,簡潔かつ効率的なアプローチを提案する。
本手法は,周波数帯域のタイプや帯域幅を調整するだけで,参照画像の導出係数と導出強度の両方を柔軟に制御できる。
論文 参考訳(メタデータ) (2024-08-02T04:13:38Z) - SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-03-11T17:35:33Z) - NVS-Adapter: Plug-and-Play Novel View Synthesis from a Single Image [45.34977005820166]
NVS-Adapterは、Text-to-Image(T2I)モデルのプラグインモジュールである。
T2Iモデルの一般化能力を完全に活用しながら、新しい視覚オブジェクトのマルチビューを合成する。
実験により,NVS-Adapterは幾何的に一貫した多視点を効果的に合成できることが示されている。
論文 参考訳(メタデータ) (2023-12-12T14:29:57Z) - Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation [115.63085345822175]
本稿では,GPT-4V(ision)を用いたマルチモーダル反復自己修正システムであるIdean to Image'を紹介し,画像の自動設計と生成を行う。
大規模マルチモーダルモデル(LMM)に基づくシステムでは,類似のマルチモーダル自己抑止能力が得られるかを検討する。
論文 参考訳(メタデータ) (2023-10-12T17:34:20Z) - Mini-DALLE3: Interactive Text to Image by Prompting Large Language
Models [71.49054220807983]
一般的な制限は、自然言語記述を用いた安定拡散のようなT2Iモデルとの効果的な通信に持続する。
最近リリースされたDALLE3に触発されて、人間の意図を一致させ、新しいタスク、インタラクティブテキスト・トゥ・イメージ(iT2I)を導入すべく、既存のT2Iシステムを再考した。
我々は,iT2I の LLM を補助的手法と既製の T2I モデルで拡張する簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T16:53:40Z) - SimDA: Simple Diffusion Adapter for Efficient Video Generation [102.90154301044095]
本稿では,強力なT2Iモデルの1.1Bパラメータのうち24Mしか微調整せず,パラメータ効率のよいビデオ生成に適応できる簡易拡散適応器(SimDA)を提案する。
野生でのT2V生成に加えて、SimDAは2分間のチューニングでワンショットビデオ編集にも使えるようになった。
論文 参考訳(メタデータ) (2023-08-18T17:58:44Z) - Visual Programming for Text-to-Image Generation and Evaluation [73.12069620086311]
テキスト・トゥ・イメージ(T2I)生成と評価のための2つの新しい解釈可能・説明可能なビジュアル・プログラミング・フレームワークを提案する。
まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。
第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。
論文 参考訳(メタデータ) (2023-05-24T16:42:17Z) - Tune-A-Video: One-Shot Tuning of Image Diffusion Models for
Text-to-Video Generation [31.882356164068753]
テキスト・トゥ・イメージ(T2I)生成の成功を再現するため、最近のテキスト・トゥ・ビデオ(T2V)生成では、T2V生成のためのデータセットに大量のデータセットが使用されている。
そこで本研究では,Tune-A-Videoが様々なアプリケーション上で時間的コヒーレントなビデオを生成することを提案する。
論文 参考訳(メタデータ) (2022-12-22T09:43:36Z) - Transformer-based Conditional Variational Autoencoder for Controllable
Story Generation [39.577220559911055]
ニューラルストーリー生成のための大規模潜時変数モデル (LVM) を, 生成効率と制御性という2つのスレッドで検討した。
我々は、トランスフォーマーの時代において、本質的に表現学習の力である潜在変数モデリングを復活させることを提唱する。
具体的には,遅延表現ベクトルをTransformerベースの事前学習アーキテクチャと統合し,条件付き変分オートエンコーダ(CVAE)を構築する。
論文 参考訳(メタデータ) (2021-01-04T08:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。