論文の概要: UniCustom: Unified Visual Conditioning for Multi-Reference Image Generation
- arxiv url: http://arxiv.org/abs/2605.12088v2
- Date: Wed, 13 May 2026 15:41:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.898554
- Title: UniCustom: Unified Visual Conditioning for Multi-Reference Image Generation
- Title(参考訳): UniCustom:マルチ参照画像生成のための統一ビジュアルコンディショニング
- Authors: Yiyan Xu, Qiulin Wang, Wenjie Wang, Yunyao Mao, Xintao Wang, Pengfei Wan, Kun Gai, Fuli Feng,
- Abstract要約: VLMエンコーディングの前にVTとVAE機能を融合した統合ビジュアルコンディショニングフレームワークを提案する。
2つのマルチ参照生成ベンチマークの実験により、UniCustomは主題の一貫性、命令従順、構成の忠実さを一貫して改善することを示した。
- 参考スコア(独自算出の注目度): 65.53694602893042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-reference image generation aims to synthesize images from textual instructions while faithfully preserving subject identities from multiple reference images. Existing VLM-enhanced diffusion models commonly rely on decoupled visual conditioning: semantic ViT features are processed by the VLM for instruction understanding, whereas appearance-rich VAE features are injected later into the diffusion backbone. Despite its intuitive design, this separation makes it difficult for the model to associate each semantically grounded subject with visual details from the correct reference image. As a result, the model may recognize which subject is being referred to, but fail to preserve its identity and fine-grained appearance, leading to attribute leakage and cross-reference confusion in complex multi-reference settings. To address this issue, we propose UniCustom, a unified visual conditioning framework that fuses ViT and VAE features before VLM encoding. This early fusion exposes the VLM to both semantic cues and appearance-rich details, enabling its hidden states to jointly encode the referred subject and corresponding visual appearance with only a lightweight linear fusion layer. To learn such unified representations, we adopt a two-stage training strategy: reconstruction-oriented pretraining that preserves reference-specific appearance details in the fused hidden states, followed by supervised finetuning on single- and multi-reference generation tasks. We further introduce a slot-wise binding regularization that encourages each image slot to preserve low-level details of its corresponding reference, thereby reducing cross-reference entanglement. Experiments on two multi-reference generation benchmarks demonstrate that UniCustom consistently improves subject consistency, instruction following, and compositional fidelity over strong baselines.
- Abstract(参考訳): マルチ参照画像生成は、複数の参照画像から被写体を忠実に保存しながら、テキスト命令から画像を合成することを目的としている。
既存のVLM拡張拡散モデルは分離された視覚条件に依存しており、意味的なViT特徴は命令理解のためにVLMによって処理されるが、外見に富んだVAE特徴は後に拡散バックボーンに注入される。
直感的な設計にもかかわらず、この分離により、各意味論的対象と正しい参照画像からの視覚的詳細を関連付けることが困難になる。
結果として、モデルはどの主題が参照されているかを認識するが、そのアイデンティティときめ細かい外観を保たず、複雑なマルチ参照設定において属性の漏洩と相互参照の混乱を引き起こす。
この問題に対処するために、VLMエンコーディングの前にVTとVAE機能を融合した統合ビジュアルコンディショニングフレームワークUniCustomを提案する。
この初期の融合は、VLMをセマンティックな手がかりと外観に富んだ詳細の両方に露出させ、その隠された状態が、参照対象と対応する視覚的外観を、軽量な線形融合層のみで共同的に符号化することを可能にする。
このような統一表現を学習するために、我々は2段階の訓練戦略を採用する: 融合した隠蔽状態における参照特化の詳細を保存した再構成指向の事前訓練と、単一および複数参照生成タスクの教師付き微調整を行う。
さらに、スロットワイドバインディングの正規化を導入し、各画像スロットが対応する参照の低レベルの詳細を保存できるようにし、参照の絡み合いを低減する。
2つのマルチ参照生成ベンチマークの実験により、UniCustomは、強いベースラインに対する主観的一貫性、命令追従、構成的忠実度を一貫して改善することを示した。
関連論文リスト
- UniRef-Image-Edit: Towards Scalable and Consistent Multi-Reference Image Editing [33.64590153603506]
高性能なマルチモーダル生成システムUniRef-Image-Editを提案する。
単一画像編集と複数画像合成を単一のフレームワークに統合する。
論文 参考訳(メタデータ) (2026-02-15T15:24:03Z) - Hierarchical Concept-to-Appearance Guidance for Multi-Subject Image Generation [22.845591588026366]
本稿では,高レベルの概念からきめ細かい外観まで,明示的で構造化された監視を提供するフレームワークを提案する。
概念レベルでは、VAEの参照機能をランダムに省略するVAEドロップアウトトレーニング戦略を導入する。
外観レベルでは、VLM由来の対応文を対応認識型マスキングアテンションモジュールに統合する。
論文 参考訳(メタデータ) (2026-02-03T12:13:29Z) - Towards Generalized Multi-Image Editing for Unified Multimodal Models [56.620038824933566]
統一マルチモーダルモデル(UMM)は、マルチモーダル理解と生成を統合する。
UMMは、複数の入力画像にまたがる詳細を参照する場合、視覚的一貫性の維持と視覚的手がかりの曖昧さに制限される。
画像の同一性を明確に識別し、可変入力数に一般化するUMMのためのスケーラブルなマルチイメージ編集フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-09T06:42:49Z) - Omni-Attribute: Open-vocabulary Attribute Encoder for Visual Concept Personalization [82.31106470150844]
我々はOmni-Attributeを紹介した。Omni-Attributeは、属性固有の表現を学習するための最初のオープン語彙画像属性エンコーダである。
我々は、生成的忠実度と対照的な非絡み合いのバランスをとる、二重目的学習パラダイムを使用する。
結果として得られる埋め込みは、オープン語彙属性の検索、パーソナライゼーション、合成生成に有効である。
論文 参考訳(メタデータ) (2025-12-11T18:59:56Z) - DRC: Enhancing Personalized Image Generation via Disentangled Representation Composition [69.10628479553709]
大規模マルチモーダルモデル(LMM)を拡張した新しいパーソナライズされた画像生成フレームワークであるDRCを紹介する。
DRCは、履歴画像と参照画像から、ユーザスタイルの好みと意味的な意図をそれぞれ明示的に抽出する。
本研究は2つの重要な学習段階を包含する。1) スタイルと意味的特徴を明確に分離するために二重解離型学習を用い,難易度を考慮した再構成駆動型パラダイムを用いて最適化し,2) パーソナライズド・パーソナライズド・パーソナライズド・ジェネレーションを効果的に適用するパーソナライズド・モデリング。
論文 参考訳(メタデータ) (2025-04-24T08:10:10Z) - LeftRefill: Filling Right Canvas based on Left Reference through
Generalized Text-to-Image Diffusion Model [55.20469538848806]
leftRefillは、参照誘導画像合成のための大規模なテキスト・ツー・イメージ(T2I)拡散モデルを利用する革新的なアプローチである。
本稿では、参照誘導画像合成に大規模なテキスト・ツー・イメージ拡散モデル(T2I)を効果的に活用するための革新的なアプローチであるLeftRefillを紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。