論文の概要: Forge-and-Quench: Enhancing Image Generation for Higher Fidelity in Unified Multimodal Models
- arxiv url: http://arxiv.org/abs/2601.04706v1
- Date: Thu, 08 Jan 2026 08:18:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.104481
- Title: Forge-and-Quench: Enhancing Image Generation for Higher Fidelity in Unified Multimodal Models
- Title(参考訳): Forge-and-Quench: 統一マルチモーダルモデルにおける高忠実性のための画像生成の強化
- Authors: Yanbing Zeng, Jia Wang, Hanghang Ma, Junqiang Wu, Jie Zhu, Xiaoming Wei, Jie Hu,
- Abstract要約: 本稿では, 画像の忠実度と詳細性を高めるために理解を活用するという, 新たな視点を紹介する。
我々は、この原則を実践する新しい統一フレームワークForge-and-Quenchを提案する。
実験により、Forge-and-Quenchは複数のモデルで画像の忠実度とディテールを大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 23.529904770014735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating image generation and understanding into a single framework has become a pivotal goal in the multimodal domain. However, how understanding can effectively assist generation has not been fully explored. Unlike previous works that focus on leveraging reasoning abilities and world knowledge from understanding models, this paper introduces a novel perspective: leveraging understanding to enhance the fidelity and detail richness of generated images. To this end, we propose Forge-and-Quench, a new unified framework that puts this principle into practice. In the generation process of our framework, an MLLM first reasons over the entire conversational context, including text instructions, to produce an enhanced text instruction. This refined instruction is then mapped to a virtual visual representation, termed the Bridge Feature, via a novel Bridge Adapter. This feature acts as a crucial link, forging insights from the understanding model to quench and refine the generation process. It is subsequently injected into the T2I backbone as a visual guidance signal, alongside the enhanced text instruction that replaces the original input. To validate this paradigm, we conduct comprehensive studies on the design of the Bridge Feature and Bridge Adapter. Our framework demonstrates exceptional extensibility and flexibility, enabling efficient migration across different MLLM and T2I models with significant savings in training overhead, all without compromising the MLLM's inherent multimodal understanding capabilities. Experiments show that Forge-and-Quench significantly improves image fidelity and detail across multiple models, while also maintaining instruction-following accuracy and enhancing world knowledge application. Models and codes are available at https://github.com/YanbingZeng/Forge-and-Quench.
- Abstract(参考訳): 画像生成と理解をひとつのフレームワークに統合することは、マルチモーダルドメインにおいて重要な目標となっている。
しかし、どのようにして効果的に生成を支援することができるかは、完全には研究されていない。
従来の推論能力と世界知識を理解モデルから活用することに焦点を当てた研究とは違って,本研究では,理解を活用して生成した画像の忠実度と詳細豊かさを高めるという,新たな視点を紹介する。
この目的のために我々は、この原則を実践する新しい統一フレームワークForge-and-Quenchを提案する。
フレームワークの生成過程において、MLLMはまず、テキスト命令を含む会話コンテキスト全体に対して、拡張されたテキスト命令を生成する。
この洗練された命令は、Bridge Featureと呼ばれる仮想的な視覚表現に、新しいBridge Adapterを通じてマッピングされる。
この機能は重要なリンクとして機能し、理解モデルから洞察を得て、生成プロセスのクエンチと改善を行う。
その後、元の入力を置き換える拡張テキスト命令と共に視覚誘導信号としてT2Iバックボーンに注入される。
このパラダイムを検証するために,ブリッジ・フィーチャーとブリッジ・アダプタの設計に関する包括的な研究を行った。
本フレームワークは,MLLM固有のマルチモーダル理解能力を損なうことなく,トレーニングオーバーヘッドを大幅に削減したMLLMモデルとT2Iモデル間の効率的なマイグレーションを可能にする。
実験により、Forge-and-Quenchは、複数のモデルにわたる画像の忠実度と詳細性を著しく改善し、命令追従精度を維持し、世界知識の応用を向上することを示した。
モデルとコードはhttps://github.com/YanbingZeng/Forge-and-Quench.comで公開されている。
関連論文リスト
- Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - Understanding-in-Generation: Reinforcing Generative Capability of Unified Model via Infusing Understanding into Generation [43.98469957837991]
統一モデル(UiG)のための新しい推論フレームワークを提案する。
UiGの中核となる洞察は、推論過程において強力な理解能力によって生成誘導を統合することである。
我々のUiGフレームワークは,既存のテキスト・ツー・イメージ推論手法に比べて,テキスト・ツー・イメージ生成の性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2025-09-23T04:52:39Z) - Janus-Pro-R1: Advancing Collaborative Visual Comprehension and Generation via Reinforcement Learning [92.57052246970254]
視覚的理解と生成の協調的共進化を可能にすることを提案する。
教師付き微調整は、真のCoTを生成する基礎的な能力を持つMLLMを指導する。
画像生成におけるAhaモーメントを解き、テキスト・ツー・イメージタスクから統合画像生成へMLLMを前進させる。
論文 参考訳(メタデータ) (2025-06-02T09:39:28Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - VARGPT: Unified Understanding and Generation in a Visual Autoregressive Multimodal Large Language Model [38.61292051733335]
VARGPTは,単一の自己回帰フレームワーク内で視覚的理解と生成を統一する,新しいマルチモーダル大規模言語モデルである。
VarGPTは視覚理解のための次世代予測パラダイムと、視覚自己回帰生成のための次世代予測パラダイムを採用している。
特に、VARGPTは自己回帰的視覚生成と命令-画像合成の能力を自然にサポートし、視覚的理解と生成の両タスクにおいてその汎用性を示す。
論文 参考訳(メタデータ) (2025-01-21T17:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。