論文の概要: CTRLorALTer: Conditional LoRAdapter for Efficient 0-Shot Control & Altering of T2I Models
- arxiv url: http://arxiv.org/abs/2405.07913v2
- Date: Tue, 08 Oct 2024 15:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:27:45.747515
- Title: CTRLorALTer: Conditional LoRAdapter for Efficient 0-Shot Control & Altering of T2I Models
- Title(参考訳): CTRLorALTer:T2Iモデルの効率的な0ショット制御と調整のための条件付きロラダプタ
- Authors: Nick Stracke, Stefan Andreas Baumann, Joshua M. Susskind, Miguel Angel Bautista, Björn Ommer,
- Abstract要約: 同じ定式化の下でスタイルと構造条件を統一するアプローチであるLoRAdapterを提案する。
LoRAdapterは、条件テキストから画像への拡散モデルに対する効率的で強力でアーキテクチャに依存しないアプローチである。
- 参考スコア(独自算出の注目度): 28.467182883868386
- License:
- Abstract: Text-to-image generative models have become a prominent and powerful tool that excels at generating high-resolution realistic images. However, guiding the generative process of these models to consider detailed forms of conditioning reflecting style and/or structure information remains an open problem. In this paper, we present LoRAdapter, an approach that unifies both style and structure conditioning under the same formulation using a novel conditional LoRA block that enables zero-shot control. LoRAdapter is an efficient, powerful, and architecture-agnostic approach to condition text-to-image diffusion models, which enables fine-grained control conditioning during generation and outperforms recent state-of-the-art approaches.
- Abstract(参考訳): テキストから画像への生成モデルは、高精細な現実的な画像を生成するのに優れ、優れたツールとなっている。
しかし、これらのモデルの生成過程を、条件付けの反射様式や/または構造情報の詳細な形式を考えるために導くことは、未解決の問題である。
本稿では、ゼロショット制御が可能な新しい条件付きLoRAブロックを用いて、同じ定式化の下でスタイルと構造条件を統一するアプローチであるLoRAdapterを提案する。
LoRAdapterは、テキストと画像の拡散モデルに対する効率的で強力でアーキテクチャに依存しないアプローチであり、生成時のきめ細かい制御条件付けを可能にし、最近の最先端のアプローチより優れている。
関連論文リスト
- SeaDAG: Semi-autoregressive Diffusion for Conditional Directed Acyclic Graph Generation [83.52157311471693]
方向性非巡回グラフ(DAG)の条件生成のための半自己回帰拡散モデルSeaDAGを紹介する。
グローバルグラフ構造を欠いた従来の自己回帰生成とは異なり,本手法は拡散ステップ毎に完全なグラフ構造を保持する。
本研究では,現実的なDAGを生成する拡散モデルの能力を高めるために,条件損失を伴うグラフ条件学習を明示的に訓練する。
論文 参考訳(メタデータ) (2024-10-21T15:47:03Z) - CAR: Controllable Autoregressive Modeling for Visual Generation [100.33455832783416]
Controllable AutoRegressive Modeling (CAR)は、条件制御をマルチスケールの潜在変数モデリングに統合する新しいプラグイン・アンド・プレイフレームワークである。
CARは、制御表現を徐々に洗練し、キャプチャし、前訓練されたモデルの各自己回帰ステップに注入して生成プロセスを導く。
提案手法は,様々な条件にまたがって優れた制御性を示し,従来の手法に比べて画質の向上を実現している。
論文 参考訳(メタデータ) (2024-10-07T00:55:42Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - ControlVAR: Exploring Controllable Visual Autoregressive Modeling [48.66209303617063]
拡散モデル(DM)の出現により、条件付き視覚発生は顕著に進展した。
高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。
本稿では,フレキシブルかつ効率的な条件生成のための視覚自己回帰モデリングにおける画素レベル制御を探求する新しいフレームワークであるControlmoreを紹介する。
論文 参考訳(メタデータ) (2024-06-14T06:35:33Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - Face Adapter for Pre-Trained Diffusion Models with Fine-Grained ID and Attribute Control [59.954322727683746]
Face-Adapterは、事前訓練された拡散モデルのための高精度で忠実な顔編集のために設計されている。
Face-Adapterは、モーションコントロールの精度、ID保持能力、生成品質の点で同等またはそれ以上の性能を達成する。
論文 参考訳(メタデータ) (2024-05-21T17:50:12Z) - MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models [34.611309081801345]
大規模な拡散ベースのテキスト・ツー・イメージ(T2I)モデルでは、テキスト・ツー・イメージ生成に印象的な生成能力がある。
本稿では,最小限の計算量で新しいタスクにまたがって生成モデルを拡張するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-15T17:55:56Z) - RL for Consistency Models: Faster Reward Guided Text-to-Image Generation [15.238373471473645]
強化学習(RL)を用いた微調整一貫性モデルのためのフレームワークを提案する。
RLCM(Reinforcement Learning for Consistency Model)と呼ばれる我々のフレームワークは、一貫性モデルの反復推論プロセスをRLプロシージャとしてフレーム化します。
RL微調整拡散モデルと比較して、RCCMの列車は大幅に高速で、報奨目標に基づいて測定された生成の質を向上し、2段階の推論ステップで高品質な画像を生成することにより推論手順を高速化する。
論文 参考訳(メタデータ) (2024-03-25T15:40:22Z) - Text Semantics to Image Generation: A method of building facades design
base on Stable Diffusion model [0.0]
本研究では,マルチネットワーク合成によるファサード画像生成手法を提案する。
LoRAアプローチを用いて,CMP Fa-cadesデータセット上で安定拡散モデルを微調整した。
ControlNetモデルの追加により、ファサードイメージを構築するためのテキスト生成の制御性が向上する。
論文 参考訳(メタデータ) (2023-02-23T14:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。