論文の概要: MUSAR: Exploring Multi-Subject Customization from Single-Subject Dataset via Attention Routing
- arxiv url: http://arxiv.org/abs/2505.02823v1
- Date: Mon, 05 May 2025 17:50:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.76003
- Title: MUSAR: Exploring Multi-Subject Customization from Single-Subject Dataset via Attention Routing
- Title(参考訳): MUSAR:アテンションルーティングによる単一オブジェクトデータセットからのマルチオブジェクトカスタマイズの探索
- Authors: Zinan Guo, Pengze Zhang, Yanze Wu, Chong Mou, Songtao Zhao, Qian He,
- Abstract要約: MUSARは、シングルオブジェクトのトレーニングデータのみを必要としながら、堅牢なマルチオブジェクトのカスタマイズを実現するためのフレームワークである。
シングルオブジェクト画像からディップチッチトレーニングペアを構築し、マルチオブジェクト学習を容易にするとともに、ディップチッチ構築によって導入された分布バイアスを積極的に補正する。
実験によると、MUSARは既存のメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 14.88610127301938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current multi-subject customization approaches encounter two critical challenges: the difficulty in acquiring diverse multi-subject training data, and attribute entanglement across different subjects. To bridge these gaps, we propose MUSAR - a simple yet effective framework to achieve robust multi-subject customization while requiring only single-subject training data. Firstly, to break the data limitation, we introduce debiased diptych learning. It constructs diptych training pairs from single-subject images to facilitate multi-subject learning, while actively correcting the distribution bias introduced by diptych construction via static attention routing and dual-branch LoRA. Secondly, to eliminate cross-subject entanglement, we introduce dynamic attention routing mechanism, which adaptively establishes bijective mappings between generated images and conditional subjects. This design not only achieves decoupling of multi-subject representations but also maintains scalable generalization performance with increasing reference subjects. Comprehensive experiments demonstrate that our MUSAR outperforms existing methods - even those trained on multi-subject dataset - in image quality, subject consistency, and interaction naturalness, despite requiring only single-subject dataset.
- Abstract(参考訳): 現在のマルチオブジェクトのカスタマイズアプローチでは、多様なマルチオブジェクトトレーニングデータを取得することの難しさと、異なる主題に対する属性の絡み合いという、2つの重要な課題に直面している。
これらのギャップを埋めるため、単一オブジェクトのトレーニングデータのみを必要としながら、堅牢なマルチオブジェクトのカスタマイズを実現するための、シンプルで効果的なフレームワークであるMUSARを提案する。
まず、データ制限を破るために、偏りのないディプチッチ学習を導入する。
シングルオブジェクト画像からディプチッチトレーニングペアを構築し、複数オブジェクトの学習を容易にするとともに、静的アテンションルーティングとデュアルブランチLORAによるディプチッチ構築によって生じる分布バイアスを積極的に補正する。
次に, 物体間絡みをなくすため, 動的アテンションルーティング機構を導入し, 生成した画像と条件付き被写体との双対写像を適応的に確立する。
この設計は、多対象表現の疎結合を実現するだけでなく、参照対象の増大とともに拡張性のある一般化性能も維持する。
総合的な実験により、MUSARは、単一のオブジェクトデータセットのみを必要とするにもかかわらず、画像の品質、主題の一貫性、相互作用の自然性において、既存のメソッド(マルチオブジェクトデータセットでトレーニングされたものでさえ)よりも優れています。
関連論文リスト
- FedRSClip: Federated Learning for Remote Sensing Scene Classification Using Vision-Language Models [23.830133838392964]
本稿では,VLM,特にCLIPに基づくリモートセンシング画像分類のための最初のフェデレーション学習フレームワークであるFedRSCLIPを提案する。
FedRSCLIPは、Prompt Learningを導入することで、フェデレーション環境におけるデータ不均一性と大規模モデル伝送の課題に対処する。
提案モデルの有効性を検証するため,既存の3つのリモートセンシング画像分類データセットに基づいてFed-RSICデータセットを構築した。
論文 参考訳(メタデータ) (2025-01-05T07:10:27Z) - Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,ラベル付きデータに頼らず,複数のモードにまたがるインスタンスの認識を目的としたクロスモーダルなFew-Shot Learningタスクを提案する。
本研究では,人間が概念を抽象化し,一般化する方法をシミュレートし,ジェネレーティブトランスファー学習フレームワークを提案する。
GTLは、RGB-Sketch、RGB-赤外線、RGB-Depthの7つのマルチモーダルデータセットにまたがる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [5.452759083801634]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - Identity Decoupling for Multi-Subject Personalization of Text-to-Image Models [66.05234562835136]
マルチオブジェクトパーソナライズを可能にする新しいフレームワークである MuDI を提案する。
本研究の主な目的は,セグメンテーションのための基礎モデルによって生成されたセグメンテーションの活用である。
実験結果から,MuDIは同一性ミキシングを伴わずに高品質なパーソナライズされたイメージを生成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-05T17:45:22Z) - Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。
クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文 参考訳(メタデータ) (2023-05-30T18:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。