論文の概要: Squeezing Capacity from Multimodal Large Language Models for Subject-driven Generation
- arxiv url: http://arxiv.org/abs/2605.26111v1
- Date: Mon, 25 May 2026 17:59:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.659549
- Title: Squeezing Capacity from Multimodal Large Language Models for Subject-driven Generation
- Title(参考訳): 主観的生成のための多モーダル大言語モデルからのスクイーズ能力
- Authors: Shuhong Zheng, Aashish Kumar Misraa, Yu-Teng Li, Yu-Jhe Li, Igor Gilitschenski,
- Abstract要約: 既存のアプローチはしばしばテキストと参照画像を別々にエンコードする。
マルチモーダルモデルと拡散モデルを結ぶ最近のフレームワークは、命令のフォローを改善するが、ほとんどはアイデンティティの保存を見落としている。
テキストと参照画像を共同でエンコードする多モーダル大言語モデル上での拡散モデルを構築し,それをVAEベースのID条件付きで拡張する。
提案手法は,マルチモーダル理解とアイデンティティ保護を調和させ,コピー・ペースト問題を緩和し,主観的画像生成における人間の嗜好に関する優れた性能を実現する。
- 参考スコア(独自算出の注目度): 22.419513267677278
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Subject-driven image generation aims to synthesize new images that preserve the identity of the given subject while following textual instructions. Existing approaches often encode text and reference images separately. This limits cross-modal reasoning abilities and causes copy-paste artifacts. Recent frameworks that connect multimodal models and diffusion models improve instruction following, but largely overlook identity preservation. To address these limitations, we condition diffusion models on Multimodal Large Language Models (MLLMs) that jointly encode text and reference images, and augment it with VAE-based identity conditioning. A novel Dual Layer Aggregation (DLA) module is designed to aggregate multi-level MLLM features for optimal conditioning, and a multi-stage denoising strategy is applied to progressively balance the semantic information from MLLM and fine-detail identity from VAE during inference. Extensive experiments demonstrate that our approach harmonizes multimodal understanding with identity preservation, mitigates copy-paste issues, and achieves superior performance regarding human preference on subject-driven image generation. Our project website is available at https://zsh2000.github.io/squeeze-mllm-subject-gen/.
- Abstract(参考訳): 対象駆動画像生成は,テキストの指示に従いながら,対象者の同一性を保った新たな画像の合成を目的とする。
既存のアプローチはしばしばテキストと参照画像を別々にエンコードする。
これにより、クロスモーダル推論能力が制限され、コピー・ペースト・アーティファクトが生じる。
マルチモーダルモデルと拡散モデルを結ぶ最近のフレームワークは、命令のフォローを改善するが、ほとんどはアイデンティティの保存を見落としている。
これらの制約に対処するため、テキストと参照画像を共同で符号化するMLLM(Multimodal Large Language Models)上で拡散モデルを条件化し、それをVAEベースのID条件で拡張する。
最適条件付けのためのマルチレベルMLLM特徴を集約する新しいDual Layer Aggregation(DLA)モジュールを設計し、推論中にMLLMからの意味情報とVAEからの細かなアイデンティティを段階的にバランスさせるマルチステージデノナイズ戦略を適用した。
広汎な実験により,本手法はアイデンティティの保存と調和し,コピー・ペースト問題を緩和し,主観的画像生成における人間の嗜好に関する優れた性能を実現する。
プロジェクトのWebサイトはhttps://zsh2000.github.io/squeeze-mllm-subject-gen/で公開されている。
関連論文リスト
- Multimodal Large Language Models for Multi-Subject In-Context Image Generation [56.20395856287325]
音楽は、textbfMUlti-textbfSubject textbfIn-textbfContextイメージ生成用に特別に設計された最初のMLLMである。
我々は,視覚連鎖機構による多目的意味関係の理解を深める。
訓練中に複雑な被写体画像を取り込むことで,連鎖推論におけるモデルの能力を向上させる。
論文 参考訳(メタデータ) (2026-04-08T15:37:42Z) - Growing Visual Generative Capacity for Pre-Trained MLLMs [60.826355079902505]
Bridgeは純粋な自己回帰統合MLLMであり、学習済みの視覚的理解モデルを生成能力で強化する。
本稿では,コンパクトなセマンティックトークンと微細なピクセルトークンを統合するセマンティック・ツー・ピクセルの離散表現を提案する。
論文 参考訳(メタデータ) (2025-10-02T00:40:02Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation [63.50827603618498]
マルチモーダル理解と生成のための統一型マスク付き拡散モデル(MDM)であるLavida-Oを提案する。
Lavida-Oは、画像レベルの理解、オブジェクトのグラウンド化、画像編集、高解像度のテキスト・ツー・イメージ合成を可能にする単一のフレームワークを提供する。
Lavida-Oは、RefCOCOオブジェクトグラウンド、GenEvalテキスト画像生成、ImgEdit画像編集など、幅広いベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-09-23T17:05:46Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。