論文の概要: MultiCrafter: High-Fidelity Multi-Subject Generation via Spatially Disentangled Attention and Identity-Aware Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.21953v1
- Date: Fri, 26 Sep 2025 06:41:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.242453
- Title: MultiCrafter: High-Fidelity Multi-Subject Generation via Spatially Disentangled Attention and Identity-Aware Reinforcement Learning
- Title(参考訳): MultiCrafter: 空間的歪んだ注意とアイデンティティ認識強化学習による高忠実なマルチオブジェクト生成
- Authors: Tao Wu, Yibo Jiang, Yehao Lu, Zhizhong Wang, Zeyi Huang, Zequn Qin, Xi Li,
- Abstract要約: マルチオブジェクト画像生成は、ユーザが提供する対象を1つの画像で合成することを目的としている。
既存の手法は、単純な再構築に基づく目的への依存によって制限される。
提案するMultiCrafterは,高忠実で嗜好に整合した生成を実現するフレームワークである。
- 参考スコア(独自算出の注目度): 28.841076643572933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-subject image generation aims to synthesize user-provided subjects in a single image while preserving subject fidelity, ensuring prompt consistency, and aligning with human aesthetic preferences. However, existing methods, particularly those built on the In-Context-Learning paradigm, are limited by their reliance on simple reconstruction-based objectives, leading to both severe attribute leakage that compromises subject fidelity and failing to align with nuanced human preferences. To address this, we propose MultiCrafter, a framework that ensures high-fidelity, preference-aligned generation. First, we find that the root cause of attribute leakage is a significant entanglement of attention between different subjects during the generation process. Therefore, we introduce explicit positional supervision to explicitly separate attention regions for each subject, effectively mitigating attribute leakage. To enable the model to accurately plan the attention region of different subjects in diverse scenarios, we employ a Mixture-of-Experts architecture to enhance the model's capacity, allowing different experts to focus on different scenarios. Finally, we design a novel online reinforcement learning framework to align the model with human preferences, featuring a scoring mechanism to accurately assess multi-subject fidelity and a more stable training strategy tailored for the MoE architecture. Experiments validate that our framework significantly improves subject fidelity while aligning with human preferences better.
- Abstract(参考訳): マルチオブジェクト画像生成は、被写体忠実性を保ち、迅速な整合性を確保し、人間の美的嗜好と整合しながら、ユーザが提供する被写体を1つの画像で合成することを目的としている。
しかし、既存の手法、特にIn-Context-Learningパラダイムに基づく手法は、単純な再構築に基づく目的への依存によって制限されているため、厳密な属性リークが主観的忠実さを損なうとともに、人間の好奇心を損なうことになる。
この問題に対処するため、我々は、高忠実で嗜好に整合した生成を保証するフレームワークであるMultiCrafterを提案する。
まず, 属性リークの根本原因は, 生成過程において, 異なる被験者間で重要な注意の絡み合っていることが判明した。
そこで本稿では,各被験者の注意領域を明確に分け,属性漏洩を効果的に軽減するために,明確な位置監視を導入する。
モデルが様々なシナリオにおける異なる主題の注意領域を正確に計画できるようにするために、モデルの能力を高めるためにMixture-of-Expertsアーキテクチャを使用し、異なる専門家が異なるシナリオに集中できるようにします。
最後に,モデルと人間の嗜好を一致させる新しいオンライン強化学習フレームワークを設計し,マルチオブジェクトの忠実度を正確に評価するスコアリング機構と,MoEアーキテクチャに適したより安定したトレーニング戦略を特徴とする。
実験により、我々のフレームワークは、人間の嗜好と整合しながら、主観的忠実度を著しく改善することが示された。
関連論文リスト
- OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation [91.45421429922506]
OneCATは、理解、生成、編集をシームレスに統合する統合マルチモーダルモデルである。
我々のフレームワークは、推論中に視覚変換器(ViT)や視覚トークン化器などの外部コンポーネントを不要にする。
論文 参考訳(メタデータ) (2025-09-03T17:29:50Z) - MOSAIC: Multi-Subject Personalized Generation via Correspondence-Aware Alignment and Disentanglement [13.100620283631557]
マルチオブジェクト生成を再考する表現中心のフレームワークであるMOSAICを提案する。
我々の重要な洞察は、マルチオブジェクト生成は表現レベルで正確にセマンティックアライメントを必要とすることである。
本稿では,意味対応型アライメントの精度を高めるために,意味対応型アライメントアライメントの損失を提案する。
論文 参考訳(メタデータ) (2025-09-02T05:40:07Z) - FocusDPO: Dynamic Preference Optimization for Multi-Subject Personalized Image Generation via Adaptive Focus [10.615833390806486]
多目的パーソナライズされた画像生成は、テスト時間最適化を必要とせず、複数の特定対象を含むカスタマイズされた画像を合成することを目的としている。
動的意味対応と教師あり画像の複雑さに基づいて焦点領域を適応的に識別するフレームワークであるFocusDPOを提案する。
論文 参考訳(メタデータ) (2025-09-01T07:06:36Z) - Mitigating Attention Hacking in Preference-Based Reward Modeling via Interaction Distillation [62.14692332209628]
インタラクション蒸留(Interaction Distillation)は、注意レベル最適化によるより適切な嗜好モデリングのための新しいトレーニングフレームワークである。
最先端のRM最適化法と比較して、より安定で一般化可能な報酬信号を提供する。
論文 参考訳(メタデータ) (2025-08-04T17:06:23Z) - Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks [81.44256822500257]
RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。
RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。
本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:33:11Z) - Nested Attention: Semantic-aware Attention Values for Concept Personalization [78.90196530697897]
我々はNested Attentionを紹介した。これはモデル内の既存のクロスアテンション層にリッチで表現豊かなイメージ表現を注入する新しいメカニズムである。
私たちのキーとなるアイデアは、ネストした注意層から得られたクエリ依存の主観値を生成し、生成した画像の各領域について関連する主観的特徴を選択することである。
論文 参考訳(メタデータ) (2025-01-02T18:52:11Z) - The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。
スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。
本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-15T10:34:06Z) - CustomContrast: A Multilevel Contrastive Perspective For Subject-Driven Text-to-Image Customization [27.114395240088562]
理想的な主観的表現は、相互差分的な視点、すなわち、主観的本質的属性と無関係な属性とを対照的な学習を通して分離することで達成できると主張する。
具体的には、マルチレベルコントラスト学習パラダイムとMFI(Multimodal Feature Injection)を含む新しいフレームワークであるCustomContrastを提案する。
広範囲な実験は、主題の類似性とテキスト制御性におけるCustomContrastの有効性を示している。
論文 参考訳(メタデータ) (2024-09-09T13:39:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。