論文の概要: CTRLorALTer: Conditional LoRAdapter for Efficient 0-Shot Control & Altering of T2I Models
- arxiv url: http://arxiv.org/abs/2405.07913v2
- Date: Tue, 08 Oct 2024 15:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:27:45.747515
- Title: CTRLorALTer: Conditional LoRAdapter for Efficient 0-Shot Control & Altering of T2I Models
- Title(参考訳): CTRLorALTer:T2Iモデルの効率的な0ショット制御と調整のための条件付きロラダプタ
- Authors: Nick Stracke, Stefan Andreas Baumann, Joshua M. Susskind, Miguel Angel Bautista, Björn Ommer,
- Abstract要約: 同じ定式化の下でスタイルと構造条件を統一するアプローチであるLoRAdapterを提案する。
LoRAdapterは、条件テキストから画像への拡散モデルに対する効率的で強力でアーキテクチャに依存しないアプローチである。
- 参考スコア(独自算出の注目度): 28.467182883868386
- License:
- Abstract: Text-to-image generative models have become a prominent and powerful tool that excels at generating high-resolution realistic images. However, guiding the generative process of these models to consider detailed forms of conditioning reflecting style and/or structure information remains an open problem. In this paper, we present LoRAdapter, an approach that unifies both style and structure conditioning under the same formulation using a novel conditional LoRA block that enables zero-shot control. LoRAdapter is an efficient, powerful, and architecture-agnostic approach to condition text-to-image diffusion models, which enables fine-grained control conditioning during generation and outperforms recent state-of-the-art approaches.
- Abstract(参考訳): テキストから画像への生成モデルは、高精細な現実的な画像を生成するのに優れ、優れたツールとなっている。
しかし、これらのモデルの生成過程を、条件付けの反射様式や/または構造情報の詳細な形式を考えるために導くことは、未解決の問題である。
本稿では、ゼロショット制御が可能な新しい条件付きLoRAブロックを用いて、同じ定式化の下でスタイルと構造条件を統一するアプローチであるLoRAdapterを提案する。
LoRAdapterは、テキストと画像の拡散モデルに対する効率的で強力でアーキテクチャに依存しないアプローチであり、生成時のきめ細かい制御条件付けを可能にし、最近の最先端のアプローチより優れている。
関連論文リスト
- ControlVAR: Exploring Controllable Visual Autoregressive Modeling [48.66209303617063]
拡散モデル(DM)の出現により、条件付き視覚発生は顕著に進展した。
高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。
論文 参考訳(メタデータ) (2024-06-14T06:35:33Z) - OmniControlNet: Dual-stage Integration for Conditional Image Generation [61.1432268643639]
我々は、外部条件生成アルゴリズムを1つの高密度予測法に統合することにより、広く採用されているコントロールネットの双方向統合を提供する。
提案したOmniControlNetは,1)タスク埋め込み指導下での1つのマルチタスク高密度予測アルゴリズムによる条件生成と,2)テキスト埋め込み指導下での異なる条件付き画像生成プロセスを統合した。
論文 参考訳(メタデータ) (2024-06-09T18:03:47Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - Face Adapter for Pre-Trained Diffusion Models with Fine-Grained ID and Attribute Control [59.954322727683746]
Face-Adapterは、事前訓練された拡散モデルのための高精度で忠実な顔編集のために設計されている。
Face-Adapterは、モーションコントロールの精度、ID保持能力、生成品質の点で同等またはそれ以上の性能を達成する。
論文 参考訳(メタデータ) (2024-05-21T17:50:12Z) - MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models [34.611309081801345]
大規模な拡散ベースのテキスト・ツー・イメージ(T2I)モデルでは、テキスト・ツー・イメージ生成に印象的な生成能力がある。
本稿では,最小限の計算量で新しいタスクにまたがって生成モデルを拡張するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-15T17:55:56Z) - RL for Consistency Models: Faster Reward Guided Text-to-Image Generation [15.238373471473645]
強化学習(RL)を用いた微調整一貫性モデルのためのフレームワークを提案する。
RLCM(Reinforcement Learning for Consistency Model)と呼ばれる我々のフレームワークは、一貫性モデルの反復推論プロセスをRLプロシージャとしてフレーム化します。
RL微調整拡散モデルと比較して、RCCMの列車は大幅に高速で、報奨目標に基づいて測定された生成の質を向上し、2段階の推論ステップで高品質な画像を生成することにより推論手順を高速化する。
論文 参考訳(メタデータ) (2024-03-25T15:40:22Z) - TCIG: Two-Stage Controlled Image Generation with Quality Enhancement
through Diffusion [0.0]
画像生成における制御性と高品質を両立させる2段階の手法を提案する。
制御性と高品質を分離することにより,優れた結果が得られる。
論文 参考訳(メタデータ) (2024-03-02T13:59:02Z) - StyleAdapter: A Single-Pass LoRA-Free Model for Stylized Image
Generation [97.24936247688824]
本稿では,テキストプロンプトとスタイル参照画像を入力として取り込む,スタイル付画像生成のためのLoRAフリーな手法を提案する。
StyleAdapterは、プロンプトの内容にマッチする高品質な画像を生成し、単一のパスで参照のスタイルを採用することができる。
論文 参考訳(メタデータ) (2023-09-04T19:16:46Z) - BLIP-Diffusion: Pre-trained Subject Representation for Controllable
Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。
他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文 参考訳(メタデータ) (2023-05-24T04:51:04Z) - Text Semantics to Image Generation: A method of building facades design
base on Stable Diffusion model [0.0]
本研究では,マルチネットワーク合成によるファサード画像生成手法を提案する。
LoRAアプローチを用いて,CMP Fa-cadesデータセット上で安定拡散モデルを微調整した。
ControlNetモデルの追加により、ファサードイメージを構築するためのテキスト生成の制御性が向上する。
論文 参考訳(メタデータ) (2023-02-23T14:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。