論文の概要: TARA: Token-Aware LoRA for Composable Personalization in Diffusion Models
- arxiv url: http://arxiv.org/abs/2508.08812v1
- Date: Tue, 12 Aug 2025 10:14:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.383143
- Title: TARA: Token-Aware LoRA for Composable Personalization in Diffusion Models
- Title(参考訳): TARA:拡散モデルにおける構成可能なパーソナライズのためのToken-Aware LoRA
- Authors: Yuqi Peng, Lingtao Zheng, Yufeng Yang, Yi Huang, Mingfu Yan, Jianzhuang Liu, Shifeng Chen,
- Abstract要約: token-Aware LoRA (TARA) を提案する。
TARAは、各モジュールが干渉を避けるために関連するレアトークンに集中することを制約し、トレーニング目的はレアトークンの空間的注意をその概念領域に合わせるように促す。
提案手法は,複数の独立したTARAモジュールを推論時に直接注入することで,トレーニング不要なマルチコンセプト合成を可能にする。
- 参考スコア(独自算出の注目度): 34.116172209476254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized text-to-image generation aims to synthesize novel images of a specific subject or style using only a few reference images. Recent methods based on Low-Rank Adaptation (LoRA) enable efficient single-concept customization by injecting lightweight, concept-specific adapters into pre-trained diffusion models. However, combining multiple LoRA modules for multi-concept generation often leads to identity missing and visual feature leakage. In this work, we identify two key issues behind these failures: (1) token-wise interference among different LoRA modules, and (2) spatial misalignment between the attention map of a rare token and its corresponding concept-specific region. To address these issues, we propose Token-Aware LoRA (TARA), which introduces a token mask to explicitly constrain each module to focus on its associated rare token to avoid interference, and a training objective that encourages the spatial attention of a rare token to align with its concept region. Our method enables training-free multi-concept composition by directly injecting multiple independently trained TARA modules at inference time. Experimental results demonstrate that TARA enables efficient multi-concept inference and effectively preserving the visual identity of each concept by avoiding mutual interference between LoRA modules. The code and models are available at https://github.com/YuqiPeng77/TARA.
- Abstract(参考訳): パーソナライズされたテキスト・ツー・イメージ生成は、いくつかの参照画像のみを使用して、特定の主題やスタイルの新しいイメージを合成することを目的としている。
ローランド適応 (LoRA) に基づく最近の手法は, 軽量で概念固有のアダプタを事前学習した拡散モデルに注入することにより, 効率的な単一概念のカスタマイズを可能にする。
しかし、マルチコンセプト生成に複数のLoRAモジュールを組み合わせると、アイデンティティの欠如と視覚的特徴の漏洩が発生することが多い。
本研究では,(1)異なるLoRAモジュール間のトークンワイド干渉,(2)レアトークンの注意マップとそれに対応する概念固有の領域間の空間的不整合,という2つの障害の背景にある問題を特定する。
これらの問題に対処するために,各モジュールが干渉を避けるために関連するレアトークンに集中するように明示的に制約するトークンマスクと,レアトークンの空間的注意をその概念領域に合わせるためのトレーニング目標を提案する。
提案手法は,複数の独立したTARAモジュールを推論時に直接注入することで,トレーニング不要なマルチコンセプト合成を可能にする。
実験により,LORAモジュール間の相互干渉を回避し,効率的なマルチコンセプト推論を可能にし,各概念の視覚的アイデンティティを効果的に保存できることが実証された。
コードとモデルはhttps://github.com/YuqiPeng77/TARAで公開されている。
関連論文リスト
- Modular Customization of Diffusion Models via Blockwise-Parameterized Low-Rank Adaptation [73.16975077770765]
コンセプトのスタイリングやマルチコンセプトのカスタマイズといったアプリケーションには、モジュール化が不可欠である。
インスタントマージ法は、個々のマージされた概念のアイデンティティ損失と干渉を引き起こすことが多い。
個々の概念のアイデンティティを正確に保存しつつ,複数の概念を効率的に組み合わせたインスタントマージ手法であるBlockLoRAを提案する。
論文 参考訳(メタデータ) (2025-03-11T16:10:36Z) - LoRA-Composer: Leveraging Low-Rank Adaptation for Multi-Concept Customization in Training-Free Diffusion Models [33.379758040084894]
ドメイン内の課題として、マルチコンセプトのカスタマイズが登場します。
既存のアプローチでは、複数のローランド適応(LoRA)の融合行列をトレーニングして、さまざまな概念をひとつのイメージにマージすることが多い。
LoRA-Composerは、複数のLoRAをシームレスに統合するために設計されたトレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2024-03-18T09:58:52Z) - OMG: Occlusion-friendly Personalized Multi-concept Generation in Diffusion Models [47.63060402915307]
OMGは、単一のイメージ内に複数の概念をシームレスに統合するように設計されたフレームワークである。
OMGはマルチコンセプトパーソナライゼーションにおいて優れた性能を示す。
civitai.comのLoRAモデルは直接利用することができる。
論文 参考訳(メタデータ) (2024-03-16T17:30:15Z) - Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。
我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文 参考訳(メタデータ) (2024-03-15T12:44:35Z) - Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept
Customization of Diffusion Models [72.67967883658957]
低ランク適応(LoRA)を用いた新しい概念に対して、公共の大規模テキスト・画像拡散モデルを簡単にカスタマイズできる。
複数のカスタマイズされた概念を共同でサポートするために複数の概念LoRAを利用することは、課題である。
我々は、分散化されたマルチコンセプトカスタマイズの課題に対処するMix-of-Showと呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:58:16Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。