論文の概要: UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation
- arxiv url: http://arxiv.org/abs/2505.14682v1
- Date: Tue, 20 May 2025 17:59:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.671794
- Title: UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation
- Title(参考訳): UniGen: 統一マルチモーダル理解と生成のための強化トレーニングとテストタイム戦略
- Authors: Rui Tian, Mingfei Gao, Mingze Xu, Jiaming Hu, Jiasen Lu, Zuxuan Wu, Yinfei Yang, Afshin Dehghan,
- Abstract要約: 画像の理解と生成が可能な統合マルチモーダル大言語モデル(MLLM)であるUniGenを紹介する。
We study the full training pipeline of UniGen from a data-centric perspective, including multi-stage pre-training, supervised fine-tuning, direct preference optimization。
そこで我々は,テスト時間スケーリングのための新しいChain-of-Thought Verification(CoT-V)戦略を提案し,UniGenの画像生成品質を大幅に向上させる。
- 参考スコア(独自算出の注目度): 52.12029029338604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce UniGen, a unified multimodal large language model (MLLM) capable of image understanding and generation. We study the full training pipeline of UniGen from a data-centric perspective, including multi-stage pre-training, supervised fine-tuning, and direct preference optimization. More importantly, we propose a new Chain-of-Thought Verification (CoT-V) strategy for test-time scaling, which significantly boosts UniGen's image generation quality using a simple Best-of-N test-time strategy. Specifically, CoT-V enables UniGen to act as both image generator and verifier at test time, assessing the semantic alignment between a text prompt and its generated image in a step-by-step CoT manner. Trained entirely on open-source datasets across all stages, UniGen achieves state-of-the-art performance on a range of image understanding and generation benchmarks, with a final score of 0.78 on GenEval and 85.19 on DPG-Bench. Through extensive ablation studies, our work provides actionable insights and addresses key challenges in the full life cycle of building unified MLLMs, contributing meaningful directions to the future research.
- Abstract(参考訳): 画像の理解と生成が可能な統合マルチモーダル大言語モデル(MLLM)であるUniGenを紹介する。
We study the full training pipeline of UniGen from a data-centric perspective, including multi-stage pre-training, supervised fine-tuning, direct preference optimization。
さらに,テスト時間スケーリングのための新しいChain-of-Thought Verification(CoT-V)戦略を提案する。
特に、CoT-Vは、UniGenをテスト時に画像生成と検証の両方として動作させ、テキストプロンプトと生成された画像とのセマンティックアライメントをステップバイステップのCoT方法で評価する。
UniGenはすべてのステージにわたるオープンソースデータセットに基づいてトレーニングされており、さまざまなイメージ理解と生成ベンチマークで最先端のパフォーマンスを実現しており、最終的なスコアはGenEvalで0.78、DPG-Benchで85.19である。
広範囲にわたるアブレーション研究を通じて、我々の研究は行動可能な洞察を提供し、統合MLLMの構築のライフサイクル全体において重要な課題に対処し、将来の研究に有意義な方向性をもたらす。
関連論文リスト
- Reinforcing Multimodal Understanding and Generation with Dual Self-rewards [56.08202047680044]
大規模言語モデル(LLM)は、クロスモデル理解と生成を単一のフレームワークに統合する。
現在のソリューションでは、外部の監視(例えば、人間のフィードバックや報酬モデル)が必要であり、一方向のタスクにのみ対処する。
我々は,LMMの理解と生成能力を強化するために,自己監督型二重報酬機構を導入する。
論文 参考訳(メタデータ) (2025-06-09T17:38:45Z) - Policy Optimized Text-to-Image Pipeline Design [72.87655664038617]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。
提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。
次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文 参考訳(メタデータ) (2025-05-27T17:50:47Z) - UGen: Unified Autoregressive Multimodal Model with Progressive Vocabulary Learning [24.792798238358717]
UGenは統合された自己回帰型マルチモーダルモデルであり、テキスト処理、画像理解、画像生成タスクを同時に行う強力なパフォーマンスを示す。
統一マルチモーダル学習に関連する課題に対処するために、UGenは、新しいメカニズム、すなわちプログレッシブ語彙学習を用いて訓練される。
論文 参考訳(メタデータ) (2025-03-27T06:19:29Z) - ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning [89.19449553099747]
テキスト・ツー・イメージ・インコンテキスト・ラーニング(T2I-ICL)の問題点について検討する。
本稿では、画像生成に先立って、ImageGen-CoTと呼ばれる思考プロセスを組み込んだフレームワークを提案する。
このデータセットを用いてMLLMを微調整し、文脈推論能力を向上する。
論文 参考訳(メタデータ) (2025-03-25T03:18:46Z) - HybridGen: VLM-Guided Hybrid Planning for Scalable Data Generation of Imitation Learning [2.677995462843075]
HybridGenはビジョンランゲージモデルとハイブリッドプランニングを統合する自動化フレームワークである。
特定のデータフォーマットを必要とせずに、大量のトレーニングデータを生成する。
最も困難なタスク変種では、HybridGenは、59.7%の平均的な成功率に到達して、大幅な改善を達成している。
論文 参考訳(メタデータ) (2025-03-17T13:49:43Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models [77.98981338798383]
インコンテキスト生成は、大規模言語モデル(LLM)のオープンタスク一般化機能の重要なコンポーネントである。
X-Promptは純粋に自動回帰型の大規模言語モデルであり、画像生成タスクと見えないタスクの両方で、幅広いパフォーマンスを提供するように設計されている。
テキストと画像の予測を統一したトレーニングタスクにより、X-Promptは、テキスト内の例からタスク認識を強化して、一般的な画像生成を処理できる。
論文 参考訳(メタデータ) (2024-12-02T18:59:26Z) - UniGen: A Unified Framework for Textual Dataset Generation Using Large Language Models [88.16197692794707]
UniGenは、多様で正確で高度に制御可能なデータセットを作成するように設計された包括的なフレームワークである。
データ多様性を強化するため、UniGenは属性誘導生成モジュールとグループチェック機能を備えている。
大規模な実験は、UniGenによって生成されたデータの優れた品質を示す。
論文 参考訳(メタデータ) (2024-06-27T07:56:44Z) - TcGAN: Semantic-Aware and Structure-Preserved GANs with Individual
Vision Transformer for Fast Arbitrary One-Shot Image Generation [11.207512995742999]
画像の内部パッチから学習する生成的敵ネットワークを持つワンショット画像生成(OSG)は、世界中で注目を集めている。
本稿では,既存のワンショット画像生成手法の欠点を克服するために,個々の視覚変換器を用いた構造保存方式TcGANを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:05:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。