論文の概要: LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers
- arxiv url: http://arxiv.org/abs/2505.23758v1
- Date: Thu, 29 May 2025 17:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.084661
- Title: LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers
- Title(参考訳): LoRAShop: 正規化フロー変換器による学習不要なマルチコンセプト画像生成と編集
- Authors: Yusuf Dalva, Hidir Yesiltepe, Pinar Yanardag,
- Abstract要約: 本稿では,LoRAモデルを用いたマルチコンセプト画像編集のための最初のフレームワークであるLoRAShopを紹介する。
LoRAShopは、Fluxスタイルの拡散トランスフォーマー内の機能相互作用パターンに関する重要な観察の上に構築されている。
LoRAShopは、トレーニングや外部の制約をなくすことで、パーソナライズされた拡散モデルを、実用的なPhotoshop-with-LoRAsのツールに変える。
- 参考スコア(独自算出の注目度): 4.710921988115686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce LoRAShop, the first framework for multi-concept image editing with LoRA models. LoRAShop builds on a key observation about the feature interaction patterns inside Flux-style diffusion transformers: concept-specific transformer features activate spatially coherent regions early in the denoising process. We harness this observation to derive a disentangled latent mask for each concept in a prior forward pass and blend the corresponding LoRA weights only within regions bounding the concepts to be personalized. The resulting edits seamlessly integrate multiple subjects or styles into the original scene while preserving global context, lighting, and fine details. Our experiments demonstrate that LoRAShop delivers better identity preservation compared to baselines. By eliminating retraining and external constraints, LoRAShop turns personalized diffusion models into a practical `photoshop-with-LoRAs' tool and opens new avenues for compositional visual storytelling and rapid creative iteration.
- Abstract(参考訳): 本稿では,LoRAモデルを用いたマルチコンセプト画像編集のための最初のフレームワークであるLoRAShopを紹介する。
LoRAShopは、Fluxスタイルの拡散変圧器内の特徴相互作用パターンに関する重要な観察の上に構築されている。
我々は、この観測を利用して、事前の前方通過において各概念に対して不整合潜在マスクを導出し、対応するLoRA重みをパーソナライズすべき概念の境界領域内でのみブレンドする。
結果の編集は、グローバルなコンテキスト、照明、細部を保ちながら、複数の主題やスタイルをシームレスに元のシーンに統合する。
実験の結果,LoRAShopはベースラインよりも優れたアイデンティティ保護を実現していることがわかった。
LoRAShopは、リトレーニングや外部制約をなくすことで、パーソナライズされた拡散モデルを実用的な‘フォトショップ・ウィズ・ロRAs’ツールに変え、作曲によるビジュアルなストーリーテリングと迅速な創造的なイテレーションのための新たな道を開く。
関連論文リスト
- Cached Multi-Lora Composition for Multi-Concept Image Generation [10.433033595844442]
Low-Rank Adaptation (LoRA) はテキスト・ツー・イメージ・モデルにおいて広く採用されている手法である。
現在のアプローチでは、マルチコンセプト画像生成のためにこれらのLoRAを構成する際に大きな課題に直面している。
我々は,複数のLoRAを効率的に統合するために設計された,新しいトレーニングフリーフレームワークであるCached Multi-LoRA(CMLoRA)を紹介した。
論文 参考訳(メタデータ) (2025-02-07T13:41:51Z) - BrushEdit: All-In-One Image Inpainting and Editing [76.93556996538398]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - LoRACLR: Contrastive Adaptation for Customization of Diffusion Models [62.70911549650579]
LoRACLRは、複数のLoRAモデルを単一の統一モデルにマージする、マルチコンセプト画像生成の新しいアプローチである。
LoRACLRは、これらのモデルの重み空間を整列し、マージするために対照的な目的を使い、干渉を最小限にしながら互換性を確保する。
本結果は,複数の概念を正確にマージし,パーソナライズされた画像生成能力を向上する上で,LoRACLRの有効性を強調した。
論文 参考訳(メタデータ) (2024-12-12T18:59:55Z) - LoRA of Change: Learning to Generate LoRA for the Editing Instruction from A Single Before-After Image Pair [116.48684498656871]
視覚的指示を用いた画像編集のためのLoRA of Change (LoC) フレームワークを提案する。
我々は、命令固有のLoRAを学習し、事前のイメージペアで「変更」を符号化し、モデルの解釈可能性と再利用性を高める。
本モデルでは,ユーザ意図に整合した高品質な画像を生成し,現実世界の視覚的指示の幅広い範囲をサポートする。
論文 参考訳(メタデータ) (2024-11-28T13:55:06Z) - LoRA-Composer: Leveraging Low-Rank Adaptation for Multi-Concept Customization in Training-Free Diffusion Models [33.379758040084894]
ドメイン内の課題として、マルチコンセプトのカスタマイズが登場します。
既存のアプローチでは、複数のローランド適応(LoRA)の融合行列をトレーニングして、さまざまな概念をひとつのイメージにマージすることが多い。
LoRA-Composerは、複数のLoRAをシームレスに統合するために設計されたトレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2024-03-18T09:58:52Z) - OMG: Occlusion-friendly Personalized Multi-concept Generation in Diffusion Models [47.63060402915307]
OMGは、単一のイメージ内に複数の概念をシームレスに統合するように設計されたフレームワークである。
OMGはマルチコンセプトパーソナライゼーションにおいて優れた性能を示す。
civitai.comのLoRAモデルは直接利用することができる。
論文 参考訳(メタデータ) (2024-03-16T17:30:15Z) - SpaceEdit: Learning a Unified Editing Space for Open-Domain Image
Editing [94.31103255204933]
オープンドメイン画像の色やトーン調整に着目したオープンドメイン画像編集のための統一モデルを提案する。
我々のモデルは、よりセマンティックで直感的で操作が容易な統合編集空間を学習する。
画像ペアを学習した編集空間の潜在コードに変換することで、下流編集タスクに我々のモデルを活用できることが示される。
論文 参考訳(メタデータ) (2021-11-30T23:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。