論文の概要: Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization
- arxiv url: http://arxiv.org/abs/2603.09538v1
- Date: Tue, 10 Mar 2026 11:49:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.260198
- Title: Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization
- Title(参考訳): グループ相対的政策最適化による統合マルチモーダルインターリーブ生成に向けて
- Authors: Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li Zhang,
- Abstract要約: 既存の統一モデルにおいて,この能力を解放するための強化学習に基づくポストトレーニング戦略を提案する。
提案手法は,1つの復号軌道内でのテキスト生成と画像生成を共同でモデル化し,新たなハイブリッド報酬で最適化する。
MMIEとInterleavedBenchの実験により,マルチモーダルインターリーブド生成の品質とコヒーレンスを大幅に向上させることが実証された。
- 参考スコア(独自算出の注目度): 35.14373974143734
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Unified vision-language models have made significant progress in multimodal understanding and generation, yet they largely fall short in producing multimodal interleaved outputs, which is a crucial capability for tasks like visual storytelling and step-by-step visual reasoning. In this work, we propose a reinforcement learning-based post-training strategy to unlock this capability in existing unified models, without relying on large-scale multimodal interleaved datasets. We begin with a warm-up stage using a hybrid dataset comprising curated interleaved sequences and limited data for multimodal understanding and text-to-image generation, which exposes the model to interleaved generation patterns while preserving its pretrained capabilities. To further refine interleaved generation, we propose a unified policy optimization framework that extends Group Relative Policy Optimization (GRPO) to the multimodal setting. Our approach jointly models text and image generation within a single decoding trajectory and optimizes it with our novel hybrid rewards covering textual relevance, visual-text alignment, and structural fidelity. Additionally, we incorporate process-level rewards to provide step-wise guidance, enhancing training efficiency in complex multimodal tasks. Experiments on MMIE and InterleavedBench demonstrate that our approach significantly enhances the quality and coherence of multimodal interleaved generation.
- Abstract(参考訳): 統一視覚言語モデルは、マルチモーダル理解と生成において大きな進歩を遂げているが、視覚的なストーリーテリングやステップバイステップの視覚的推論といったタスクにおいて重要な機能である、多モーダルなインターリーブアウトプットの生成にはほとんど不足している。
本研究では,大規模なマルチモーダル・インターリーブ・データセットに頼ることなく,既存の統一モデルでこの機能を開放するための強化学習に基づくポストトレーニング戦略を提案する。
まず,複数モーダル理解とテキスト・ツー・イメージ・ジェネレーションのための,キュレートされたインターリーブド・シーケンスと限定されたデータからなるハイブリッド・データセットを用いてウォームアップ・ステージを構築し,その事前学習能力を保ちながら,インターリーブド・ジェネレーション・パターンにモデルを公開する。
そこで本研究では,グループ相対政策最適化(GRPO)をマルチモーダル設定に拡張する統合ポリシ最適化フレームワークを提案する。
提案手法は,1つのデコード軌道内でのテキスト生成と画像生成を共同でモデル化し,テキスト関連性,視覚的テキストアライメント,構造的忠実性を含む新たなハイブリッド報酬で最適化する。
さらに、プロセスレベルの報酬をステップワイドガイダンスに取り入れ、複雑なマルチモーダルタスクにおけるトレーニング効率を向上させる。
MMIEとInterleavedBenchの実験により,マルチモーダルインターリーブド生成の品質とコヒーレンスを大幅に向上させることが実証された。
関連論文リスト
- Multi-Aspect Cross-modal Quantization for Generative Recommendation [27.92632297542123]
生成レコメンデーション(MACRec)のための多視点クロスモーダル量子化を提案する。
まず、ID学習過程において、競合率を効果的に低減するクロスモーダル量子化を導入する。
また、暗黙のアライメントや明示的なアライメントを含むマルチアスペクトのクロスモーダルアライメントも組み込んでいます。
論文 参考訳(メタデータ) (2025-11-19T04:55:14Z) - NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。