Fugu-MT 論文翻訳(概要): CTRLorALTer: Conditional LoRAdapter for Efficient 0-Shot Control & Altering of T2I Models

論文の概要: CTRLorALTer: Conditional LoRAdapter for Efficient 0-Shot Control & Altering of T2I Models

arxiv url: http://arxiv.org/abs/2405.07913v2
Date: Tue, 08 Oct 2024 15:14:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 06:36:24.404662
Title: CTRLorALTer: Conditional LoRAdapter for Efficient 0-Shot Control & Altering of T2I Models
Title（参考訳）: CTRLorALTer:T2Iモデルの効率的な0ショット制御と調整のための条件付きロラダプタ
Authors: Nick Stracke, Stefan Andreas Baumann, Joshua M. Susskind, Miguel Angel Bautista, Björn Ommer,
Abstract要約: 同じ定式化の下でスタイルと構造条件を統一するアプローチであるLoRAdapterを提案する。 LoRAdapterは、条件テキストから画像への拡散モデルに対する効率的で強力でアーキテクチャに依存しないアプローチである。
参考スコア（独自算出の注目度）: 28.467182883868386
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-image generative models have become a prominent and powerful tool that excels at generating high-resolution realistic images. However, guiding the generative process of these models to consider detailed forms of conditioning reflecting style and/or structure information remains an open problem. In this paper, we present LoRAdapter, an approach that unifies both style and structure conditioning under the same formulation using a novel conditional LoRA block that enables zero-shot control. LoRAdapter is an efficient, powerful, and architecture-agnostic approach to condition text-to-image diffusion models, which enables fine-grained control conditioning during generation and outperforms recent state-of-the-art approaches.
Abstract（参考訳）: テキストから画像への生成モデルは、高精細な現実的な画像を生成するのに優れ、優れたツールとなっている。しかし、これらのモデルの生成過程を、条件付けの反射様式や/または構造情報の詳細な形式を考えるために導くことは、未解決の問題である。本稿では、ゼロショット制御が可能な新しい条件付きLoRAブロックを用いて、同じ定式化の下でスタイルと構造条件を統一するアプローチであるLoRAdapterを提案する。 LoRAdapterは、テキストと画像の拡散モデルに対する効率的で強力でアーキテクチャに依存しないアプローチであり、生成時のきめ細かい制御条件付けを可能にし、最近の最先端のアプローチより優れている。

関連論文リスト

ScaleWeaver: Weaving Efficient Controllable T2I Generation with Multi-Scale Reference Attention [86.93601565563954]
ScaleWeaverは、高度な視覚的自己回帰(VAR)モデルに基づいて、高忠実で制御可能な生成を実現するために設計されたフレームワークである。提案された参照注意モジュールは image$rightarrow$condition から不要な注意を排除し、計算コストを削減している。実験によると、ScaleWeaverは、拡散ベースの方法よりも優れた効率を実現しつつ、高品質な生成と正確な制御を提供する。
論文参考訳（メタデータ） (2025-10-16T17:00:59Z)
TC-LoRA: Temporally Modulated Conditional LoRA for Adaptive Diffusion Control [15.019368747393862]
現在の制御可能な拡散モデルは、中間的なアクティベーションを変更して新しいモダリティに基づくガイダンスを注入する固定アーキテクチャに依存している。モデルの重みを直接条件付けすることで動的文脈認識制御を可能にする新しいパラダイムであるTC-LoRAを導入する。
論文参考訳（メタデータ） (2025-10-10T17:13:02Z)
IAR2: Improving Autoregressive Visual Generation with Semantic-Detail Associated Token Prediction [77.06211178777939]
IAR2は、階層的なセマンティックディーテール合成プロセスを可能にする高度な自己回帰フレームワークである。我々は、IAR2が自動回帰画像生成のための新しい最先端技術を設定し、ImageNet上で1.50のFIDを達成することを示す。
論文参考訳（メタデータ） (2025-10-08T12:08:21Z)
Dual Recursive Feedback on Generation and Appearance Latents for Pose-Robust Text-to-Image Diffusion [15.384896404310645]
制御可能なT2Iモデルにおける制御条件を適切に反映する訓練不要なDual Recursive Feedback(DRF)システムを提案する。提案手法は高品質でセマンティック・コヒーレントで構造的に一貫した画像を生成する。
論文参考訳（メタデータ） (2025-08-13T07:46:00Z)
AutoLoRA: Automatic LoRA Retrieval and Fine-Grained Gated Fusion for Text-to-Image Generation [32.46570968627392]
低ランク適応(LoRA)は、最小パラメータオーバーヘッドでモデルのカスタマイズを可能にする効果を実証している。意味駆動型LoRA検索と動的アグリゲーションを可能にする新しいフレームワークを提案する。提案手法は画像生成のパーフェマンスを大幅に改善する。
論文参考訳（メタデータ） (2025-08-04T06:36:00Z)
RichControl: Structure- and Appearance-Rich Training-Free Spatial Control for Text-to-Image Generation [16.038598998902767]
テキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトから高品質な画像を生成することに成功した。本稿では,デノナイジングプロセスからインジェクションタイムステップを分離するフレキシブルな機能インジェクションフレームワークを提案する。提案手法は,多種多様なゼロショット条件付きシナリオにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-07-03T16:56:15Z)
ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL [54.100889131719626]
連鎖推論と強化学習がNLPの突破口となった。我々はReasonGen-R1を紹介した。ReasonGen-R1は自動回帰画像生成器に明示的なテキストベースの「思考」スキルを付与するフレームワークである。 ReasonGen-R1は、強いベースラインや先行技術モデルよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2025-05-30T17:59:48Z)
Incorporating Flexible Image Conditioning into Text-to-Video Diffusion Models without Training [27.794381157153776]
フレキシブル・ビジュアル・コンディショニングによるTI2V生成のための統一型定式化を提案する。我々は、任意の量の画像に対してT2V基礎モデルを条件付けることができるFlexTI2Vと呼ばれる革新的なトレーニングフリーアプローチを提案する。本手法は,従来のトレーニング不要の画像条件付け手法を顕著なマージンで上回っている。
論文参考訳（メタデータ） (2025-05-27T02:16:06Z)
AC-LoRA: Auto Component LoRA for Personalized Artistic Style Image Generation [2.2820583483778045]
AC-LoRAは、LoRA行列の信号成分とノイズ成分を自動的に分離し、高速で効率的なパーソナライズされた芸術的スタイルの画像生成を可能にする。結果は、FID、CLIP、DINO、ImageRewardを用いて検証され、平均9%の改善が得られた。
論文参考訳（メタデータ） (2025-04-03T02:56:01Z)
STAY Diffusion: Styled Layout Diffusion Model for Diverse Layout-to-Image Generation [4.769823364778397]
本稿では,写真リアルな画像を生成する拡散モデルを提案し,シーン内のスタイリングされたオブジェクトのきめ細かい制御を実現する。提案手法は,各レイアウトのグローバルな条件と,重み変調のための自己教師付きセマンティックマップを学習する。オブジェクトの関係を捉えるためのグローバル条件とイメージ特徴をクロスコンディションするために、新しいスタイルマスク注意(SM Attention)も導入された。
論文参考訳（メタデータ） (2025-03-15T17:36:24Z)
DynamicControl: Adaptive Condition Selection for Improved Text-to-Image Generation [63.63429658282696]
多様な制御信号の動的組み合わせをサポートするDynamicControlを提案する。様々な条件下での制御性,生成品質,構成性の観点から,DynamicControlは既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-04T11:54:57Z)
OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。 OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文参考訳（メタデータ） (2024-11-22T17:55:15Z)
Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-14T13:52:43Z)
ControlSR: Taming Diffusion Models for Consistent Real-World Image Super Resolution [68.72454974431749]
我々は、一貫した実世界の画像超解像(Real-ISR)に対して拡散モデルをテーム化する新しい方法であるControlSRを提案する。提案モデルでは,複数のテストセット上で複数の測定値にまたがる性能が向上し,既存の手法よりもLR画像でより一貫したSR結果が得られる。
論文参考訳（メタデータ） (2024-10-18T08:35:57Z)
CAR: Controllable Autoregressive Modeling for Visual Generation [100.33455832783416]
Controllable AutoRegressive Modeling (CAR)は、条件制御をマルチスケールの潜在変数モデリングに統合する新しいプラグイン・アンド・プレイフレームワークである。 CARは、制御表現を徐々に洗練し、キャプチャし、前訓練されたモデルの各自己回帰ステップに注入して生成プロセスを導く。提案手法は,様々な条件にまたがって優れた制御性を示し,従来の手法に比べて画質の向上を実現している。
論文参考訳（メタデータ） (2024-10-07T00:55:42Z)
ControlVAR: Exploring Controllable Visual Autoregressive Modeling [48.66209303617063]
拡散モデル(DM)の出現により、条件付き視覚発生は顕著に進展した。高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。本稿では,フレキシブルかつ効率的な条件生成のための視覚自己回帰モデリングにおける画素レベル制御を探求する新しいフレームワークであるControlmoreを紹介する。
論文参考訳（メタデータ） (2024-06-14T06:35:33Z)
A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文参考訳（メタデータ） (2024-05-31T21:47:05Z)
Face Adapter for Pre-Trained Diffusion Models with Fine-Grained ID and Attribute Control [59.954322727683746]
Face-Adapterは、事前訓練された拡散モデルのための高精度で忠実な顔編集のために設計されている。 Face-Adapterは、モーションコントロールの精度、ID保持能力、生成品質の点で同等またはそれ以上の性能を達成する。
論文参考訳（メタデータ） (2024-05-21T17:50:12Z)
MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models [34.611309081801345]
大規模な拡散ベースのテキスト・ツー・イメージ(T2I)モデルでは、テキスト・ツー・イメージ生成に印象的な生成能力がある。本稿では,最小限の計算量で新しいタスクにまたがって生成モデルを拡張するための新しい手法を提案する。
論文参考訳（メタデータ） (2024-04-15T17:55:56Z)
RL for Consistency Models: Faster Reward Guided Text-to-Image Generation [15.238373471473645]
強化学習(RL)を用いた微調整一貫性モデルのためのフレームワークを提案する。 RLCM(Reinforcement Learning for Consistency Model)と呼ばれる我々のフレームワークは、一貫性モデルの反復推論プロセスをRLプロシージャとしてフレーム化します。 RL微調整拡散モデルと比較して、RCCMの列車は大幅に高速で、報奨目標に基づいて測定された生成の質を向上し、2段階の推論ステップで高品質な画像を生成することにより推論手順を高速化する。
論文参考訳（メタデータ） (2024-03-25T15:40:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。