論文の概要: MM-R1: Unleashing the Power of Unified Multimodal Large Language Models for Personalized Image Generation
- arxiv url: http://arxiv.org/abs/2508.11433v1
- Date: Fri, 15 Aug 2025 12:20:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.947222
- Title: MM-R1: Unleashing the Power of Unified Multimodal Large Language Models for Personalized Image Generation
- Title(参考訳): MM-R1:パーソナライズされた画像生成のための統一マルチモーダル大言語モデルのパワーを開放する
- Authors: Qian Liang, Yujia Wu, Kuncheng Li, Jiwei Wei, Shiyuan He, Jinyu Guo, Ning Xie,
- Abstract要約: 画像生成のための統一MLLMの本質的なポテンシャルを解き放つために、X-CoT(cross-modal Chain-of-Thought)推論戦略を統合するフレームワークであるMM-R1を紹介する。
具体的には、パーソナライズを統合的な視覚的推論と生成プロセスとして構成する。
実験により,MM-R1はMLLMのパーソナライズ能力を解き放ち,高い被写体忠実度と強いテキストアライメントを有する画像を生成することを示した。
- 参考スコア(独自算出の注目度): 5.902436993083946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) with unified architectures excel across a wide range of vision-language tasks, yet aligning them with personalized image generation remains a significant challenge. Existing methods for MLLMs are frequently subject-specific, demanding a data-intensive fine-tuning process for every new subject, which limits their scalability. In this paper, we introduce MM-R1, a framework that integrates a cross-modal Chain-of-Thought (X-CoT) reasoning strategy to unlock the inherent potential of unified MLLMs for personalized image generation. Specifically, we structure personalization as an integrated visual reasoning and generation process: (1) grounding subject concepts by interpreting and understanding user-provided images and contextual cues, and (2) generating personalized images conditioned on both the extracted subject representations and user prompts. To further enhance the reasoning capability, we adopt Grouped Reward Proximal Policy Optimization (GRPO) to explicitly align the generation. Experiments demonstrate that MM-R1 unleashes the personalization capability of unified MLLMs to generate images with high subject fidelity and strong text alignment in a zero-shot manner.
- Abstract(参考訳): 統合アーキテクチャを持つマルチモーダル大規模言語モデル(MLLM)は、幅広い視覚言語タスクに優れるが、パーソナライズされた画像生成と整合性は依然として大きな課題である。
既存のMLLMの手法は、しばしば主題に特化しており、新しい主題ごとにデータ集約的な微調整プロセスが必要で、スケーラビリティが制限される。
本稿では,画像生成のための統一MLLMの本質的な可能性を解き明かすために,クロスモーダル・チェーン・オブ・ソート(X-CoT)推論戦略を統合したフレームワークMM-R1を紹介する。
具体的には、パーソナライズを統合的な視覚的推論・生成プロセスとして構成する:(1)ユーザが提供する画像と文脈的手がかりを解釈・理解し、(2)抽出された対象表現とユーザプロンプトの両方に条件付けられたパーソナライズされた画像を生成する。
推論能力をさらに強化するため、我々は、GTP(Grouped Reward Proximal Policy Optimization)を採用して、生成を明示的に調整した。
実験により,MM-R1はMLLMのパーソナライズ能力を解き放ち,高主観的忠実度と強いテキストアライメントをゼロショットで生成することを示した。
関連論文リスト
- DRC: Enhancing Personalized Image Generation via Disentangled Representation Composition [69.10628479553709]
大規模マルチモーダルモデル(LMM)を拡張した新しいパーソナライズされた画像生成フレームワークであるDRCを紹介する。
DRCは、履歴画像と参照画像から、ユーザスタイルの好みと意味的な意図をそれぞれ明示的に抽出する。
本研究は2つの重要な学習段階を包含する。1) スタイルと意味的特徴を明確に分離するために二重解離型学習を用い,難易度を考慮した再構成駆動型パラダイムを用いて最適化し,2) パーソナライズド・パーソナライズド・パーソナライズド・ジェネレーションを効果的に適用するパーソナライズド・モデリング。
論文 参考訳(メタデータ) (2025-04-24T08:10:10Z) - ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance [47.53085562765585]
本稿では,一大言語モデルにマルチモーダル理解と生成機能をシームレスに統合する統合型マルチモーダル言語モデル (MLLM) であるILLUMEを紹介する。
画像テキストアライメントに通常必要となる大規模なデータセットサイズに対処するため,視覚トークン化器の設計によるデータ効率の向上を提案する。
従来の研究で探索されていない理解と生成能力の相乗的向上を促進するために,我々は,新しい自己向上型マルチモーダルアライメント方式を導入する。
論文 参考訳(メタデータ) (2024-12-09T17:11:50Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。