論文の概要: MUSAR: Exploring Multi-Subject Customization from Single-Subject Dataset via Attention Routing
- arxiv url: http://arxiv.org/abs/2505.02823v1
- Date: Mon, 05 May 2025 17:50:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.76003
- Title: MUSAR: Exploring Multi-Subject Customization from Single-Subject Dataset via Attention Routing
- Title(参考訳): MUSAR:アテンションルーティングによる単一オブジェクトデータセットからのマルチオブジェクトカスタマイズの探索
- Authors: Zinan Guo, Pengze Zhang, Yanze Wu, Chong Mou, Songtao Zhao, Qian He,
- Abstract要約: MUSARは、シングルオブジェクトのトレーニングデータのみを必要としながら、堅牢なマルチオブジェクトのカスタマイズを実現するためのフレームワークである。
シングルオブジェクト画像からディップチッチトレーニングペアを構築し、マルチオブジェクト学習を容易にするとともに、ディップチッチ構築によって導入された分布バイアスを積極的に補正する。
実験によると、MUSARは既存のメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 14.88610127301938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current multi-subject customization approaches encounter two critical challenges: the difficulty in acquiring diverse multi-subject training data, and attribute entanglement across different subjects. To bridge these gaps, we propose MUSAR - a simple yet effective framework to achieve robust multi-subject customization while requiring only single-subject training data. Firstly, to break the data limitation, we introduce debiased diptych learning. It constructs diptych training pairs from single-subject images to facilitate multi-subject learning, while actively correcting the distribution bias introduced by diptych construction via static attention routing and dual-branch LoRA. Secondly, to eliminate cross-subject entanglement, we introduce dynamic attention routing mechanism, which adaptively establishes bijective mappings between generated images and conditional subjects. This design not only achieves decoupling of multi-subject representations but also maintains scalable generalization performance with increasing reference subjects. Comprehensive experiments demonstrate that our MUSAR outperforms existing methods - even those trained on multi-subject dataset - in image quality, subject consistency, and interaction naturalness, despite requiring only single-subject dataset.
- Abstract(参考訳): 現在のマルチオブジェクトのカスタマイズアプローチでは、多様なマルチオブジェクトトレーニングデータを取得することの難しさと、異なる主題に対する属性の絡み合いという、2つの重要な課題に直面している。
これらのギャップを埋めるため、単一オブジェクトのトレーニングデータのみを必要としながら、堅牢なマルチオブジェクトのカスタマイズを実現するための、シンプルで効果的なフレームワークであるMUSARを提案する。
まず、データ制限を破るために、偏りのないディプチッチ学習を導入する。
シングルオブジェクト画像からディプチッチトレーニングペアを構築し、複数オブジェクトの学習を容易にするとともに、静的アテンションルーティングとデュアルブランチLORAによるディプチッチ構築によって生じる分布バイアスを積極的に補正する。
次に, 物体間絡みをなくすため, 動的アテンションルーティング機構を導入し, 生成した画像と条件付き被写体との双対写像を適応的に確立する。
この設計は、多対象表現の疎結合を実現するだけでなく、参照対象の増大とともに拡張性のある一般化性能も維持する。
総合的な実験により、MUSARは、単一のオブジェクトデータセットのみを必要とするにもかかわらず、画像の品質、主題の一貫性、相互作用の自然性において、既存のメソッド(マルチオブジェクトデータセットでトレーニングされたものでさえ)よりも優れています。
関連論文リスト
- MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models [123.17643568298116]
本稿では,マルチモーダル基盤モデルの知識をテキスト化するための新しいフレームワークTAViSを提案する。
これらのモデルを効果的に組み合わせることによって、SAM2とImageBind間の知識伝達の困難さと、監督のためにセグメンテーション損失のみを使用することの不十分さの2つの大きな課題が生じる。
提案手法は,シングルソース,マルチソース,セマンティックデータセットにおいて優れた性能を示し,ゼロショット設定で優れる。
論文 参考訳(メタデータ) (2025-06-13T03:19:47Z) - FedRSClip: Federated Learning for Remote Sensing Scene Classification Using Vision-Language Models [23.830133838392964]
本稿では,VLM,特にCLIPに基づくリモートセンシング画像分類のための最初のフェデレーション学習フレームワークであるFedRSCLIPを提案する。
FedRSCLIPは、Prompt Learningを導入することで、フェデレーション環境におけるデータ不均一性と大規模モデル伝送の課題に対処する。
提案モデルの有効性を検証するため,既存の3つのリモートセンシング画像分類データセットに基づいてFed-RSICデータセットを構築した。
論文 参考訳(メタデータ) (2025-01-05T07:10:27Z) - Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,ラベル付きデータに頼らず,複数のモードにまたがるインスタンスの認識を目的としたクロスモーダルなFew-Shot Learningタスクを提案する。
本研究では,人間が概念を抽象化し,一般化する方法をシミュレートし,ジェネレーティブトランスファー学習フレームワークを提案する。
GTLは、RGB-Sketch、RGB-赤外線、RGB-Depthの7つのマルチモーダルデータセットにまたがる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - CustomContrast: A Multilevel Contrastive Perspective For Subject-Driven Text-to-Image Customization [27.114395240088562]
理想的な主観的表現は、相互差分的な視点、すなわち、主観的本質的属性と無関係な属性とを対照的な学習を通して分離することで達成できると主張する。
具体的には、マルチレベルコントラスト学習パラダイムとMFI(Multimodal Feature Injection)を含む新しいフレームワークであるCustomContrastを提案する。
広範囲な実験は、主題の類似性とテキスト制御性におけるCustomContrastの有効性を示している。
論文 参考訳(メタデータ) (2024-09-09T13:39:47Z) - Unity in Diversity: Multi-expert Knowledge Confrontation and Collaboration for Generalizable Vehicle Re-identification [60.20318058777603]
一般化可能な車両再識別(ReID)は、微調整や再訓練を必要とせず、未知のターゲットドメインに適応可能なモデルの開発を目指している。
これまでの研究は主に、ソースドメイン間のデータ分散を調整することで、ドメイン不変の機能の抽出に重点を置いてきた。
そこで本研究では,この問題を解決するために,2段階のMulti-expert Knowledge Confrontation and Collaboration(MiKeCoCo)手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T04:06:39Z) - MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [5.452759083801634]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - Identity Decoupling for Multi-Subject Personalization of Text-to-Image Models [66.05234562835136]
マルチオブジェクトパーソナライズを可能にする新しいフレームワークである MuDI を提案する。
本研究の主な目的は,セグメンテーションのための基礎モデルによって生成されたセグメンテーションの活用である。
実験結果から,MuDIは同一性ミキシングを伴わずに高品質なパーソナライズされたイメージを生成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-05T17:45:22Z) - Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。
クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文 参考訳(メタデータ) (2023-05-30T18:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。