論文の概要: UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation
- arxiv url: http://arxiv.org/abs/2505.14682v1
- Date: Tue, 20 May 2025 17:59:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.671794
- Title: UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation
- Title(参考訳): UniGen: 統一マルチモーダル理解と生成のための強化トレーニングとテストタイム戦略
- Authors: Rui Tian, Mingfei Gao, Mingze Xu, Jiaming Hu, Jiasen Lu, Zuxuan Wu, Yinfei Yang, Afshin Dehghan,
- Abstract要約: 画像の理解と生成が可能な統合マルチモーダル大言語モデル(MLLM)であるUniGenを紹介する。
We study the full training pipeline of UniGen from a data-centric perspective, including multi-stage pre-training, supervised fine-tuning, direct preference optimization。
そこで我々は,テスト時間スケーリングのための新しいChain-of-Thought Verification(CoT-V)戦略を提案し,UniGenの画像生成品質を大幅に向上させる。
- 参考スコア(独自算出の注目度): 52.12029029338604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce UniGen, a unified multimodal large language model (MLLM) capable of image understanding and generation. We study the full training pipeline of UniGen from a data-centric perspective, including multi-stage pre-training, supervised fine-tuning, and direct preference optimization. More importantly, we propose a new Chain-of-Thought Verification (CoT-V) strategy for test-time scaling, which significantly boosts UniGen's image generation quality using a simple Best-of-N test-time strategy. Specifically, CoT-V enables UniGen to act as both image generator and verifier at test time, assessing the semantic alignment between a text prompt and its generated image in a step-by-step CoT manner. Trained entirely on open-source datasets across all stages, UniGen achieves state-of-the-art performance on a range of image understanding and generation benchmarks, with a final score of 0.78 on GenEval and 85.19 on DPG-Bench. Through extensive ablation studies, our work provides actionable insights and addresses key challenges in the full life cycle of building unified MLLMs, contributing meaningful directions to the future research.
- Abstract(参考訳): 画像の理解と生成が可能な統合マルチモーダル大言語モデル(MLLM)であるUniGenを紹介する。
We study the full training pipeline of UniGen from a data-centric perspective, including multi-stage pre-training, supervised fine-tuning, direct preference optimization。
さらに,テスト時間スケーリングのための新しいChain-of-Thought Verification(CoT-V)戦略を提案する。
特に、CoT-Vは、UniGenをテスト時に画像生成と検証の両方として動作させ、テキストプロンプトと生成された画像とのセマンティックアライメントをステップバイステップのCoT方法で評価する。
UniGenはすべてのステージにわたるオープンソースデータセットに基づいてトレーニングされており、さまざまなイメージ理解と生成ベンチマークで最先端のパフォーマンスを実現しており、最終的なスコアはGenEvalで0.78、DPG-Benchで85.19である。
広範囲にわたるアブレーション研究を通じて、我々の研究は行動可能な洞察を提供し、統合MLLMの構築のライフサイクル全体において重要な課題に対処し、将来の研究に有意義な方向性をもたらす。
関連論文リスト
- UGen: Unified Autoregressive Multimodal Model with Progressive Vocabulary Learning [24.792798238358717]
UGenは統合された自己回帰型マルチモーダルモデルであり、テキスト処理、画像理解、画像生成タスクを同時に行う強力なパフォーマンスを示す。
統一マルチモーダル学習に関連する課題に対処するために、UGenは、新しいメカニズム、すなわちプログレッシブ語彙学習を用いて訓練される。
論文 参考訳(メタデータ) (2025-03-27T06:19:29Z) - ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning [89.19449553099747]
テキスト・ツー・イメージ・インコンテキスト・ラーニング(T2I-ICL)の問題点について検討する。
本稿では、画像生成に先立って、ImageGen-CoTと呼ばれる思考プロセスを組み込んだフレームワークを提案する。
このデータセットを用いてMLLMを微調整し、文脈推論能力を向上する。
論文 参考訳(メタデータ) (2025-03-25T03:18:46Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - UniGen: A Unified Framework for Textual Dataset Generation Using Large Language Models [88.16197692794707]
UniGenは、多様で正確で高度に制御可能なデータセットを作成するように設計された包括的なフレームワークである。
データ多様性を強化するため、UniGenは属性誘導生成モジュールとグループチェック機能を備えている。
大規模な実験は、UniGenによって生成されたデータの優れた品質を示す。
論文 参考訳(メタデータ) (2024-06-27T07:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。