論文の概要: Understanding-in-Generation: Reinforcing Generative Capability of Unified Model via Infusing Understanding into Generation
- arxiv url: http://arxiv.org/abs/2509.18639v1
- Date: Tue, 23 Sep 2025 04:52:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.706346
- Title: Understanding-in-Generation: Reinforcing Generative Capability of Unified Model via Infusing Understanding into Generation
- Title(参考訳): 生成の理解: 生成への注入による統一モデルの生成能力の強化
- Authors: Yuanhuiyi Lyu, Chi Kit Wong, Chenfei Liao, Lutao Jiang, Xu Zheng, Zexin Lu, Linfeng Zhang, Xuming Hu,
- Abstract要約: 統一モデル(UiG)のための新しい推論フレームワークを提案する。
UiGの中核となる洞察は、推論過程において強力な理解能力によって生成誘導を統合することである。
我々のUiGフレームワークは,既存のテキスト・ツー・イメージ推論手法に比べて,テキスト・ツー・イメージ生成の性能が大幅に向上したことを示す。
- 参考スコア(独自算出の注目度): 43.98469957837991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have made notable advancements in enhancing unified models for text-to-image generation through the Chain-of-Thought (CoT). However, these reasoning methods separate the processes of understanding and generation, which limits their ability to guide the reasoning of unified models in addressing the deficiencies of their generative capabilities. To this end, we propose a novel reasoning framework for unified models, Understanding-in-Generation (UiG), which harnesses the robust understanding capabilities of unified models to reinforce their performance in image generation. The core insight of our UiG is to integrate generative guidance by the strong understanding capabilities during the reasoning process, thereby mitigating the limitations of generative abilities. To achieve this, we introduce "Image Editing" as a bridge to infuse understanding into the generation process. Initially, we verify the generated image and incorporate the understanding of unified models into the editing instructions. Subsequently, we enhance the generated image step by step, gradually infusing the understanding into the generation process. Our UiG framework demonstrates a significant performance improvement in text-to-image generation over existing text-to-image reasoning methods, e.g., a 3.92% gain on the long prompt setting of the TIIF benchmark. The project code: https://github.com/QC-LY/UiG
- Abstract(参考訳): 最近の研究は、CoT(Chain-of-Thought)を通じて、テキスト・ツー・イメージ・ジェネレーションのための統一モデルの統合において顕著な進歩を遂げている。
しかし、これらの推論手法は理解と生成の過程を分離し、それらの生成能力の欠陥に対処する上で統一モデルの推論を導く能力を制限する。
そこで本稿では,統一モデルに対する新たな推論フレームワークである理解・イン・ジェネレーション(UiG)を提案する。
UiGの中核となる洞察は、推論過程における強力な理解能力によって生成誘導を統合することで、生成能力の限界を緩和することである。
これを実現するために、生成プロセスに理解を注入するブリッジとして「画像編集」を導入する。
まず、生成した画像の検証を行い、統合されたモデルの理解を編集命令に組み込む。
その後、生成した画像のステップを段階的に強化し、その理解を段階的に生成プロセスに注入する。
我々のUiGフレームワークは、TIIFベンチマークのロングプロンプト設定で3.92%向上した既存のテキスト・ツー・イメージ推論手法に対して、テキスト・ツー・イメージ生成の大幅なパフォーマンス向上を示す。
プロジェクトコード:https://github.com/QC-LY/UiG
関連論文リスト
- Interleaving Reasoning for Better Text-to-Image Generation [83.69082794730664]
テキストベース思考と画像合成を交互に行うIRG(Interleaving Reasoning Generation)を提案する。
IRGを効果的に訓練するために,2つのサブゴールをターゲットにしたIRGL(Interleaving Reasoning Generation Learning)を提案する。
実験の結果、SoTAの性能はGenEval, WISE, TIIF, GenAI-Bench, OneIG-ENで5~10ポイント向上した。
論文 参考訳(メタデータ) (2025-09-08T17:56:23Z) - X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again [45.74833463136701]
我々は,セマンティック・イメージ・トークンーザ,言語と画像の両方に対する統一自己回帰モデル,X-Omniと呼ばれる画像生成のためのオフライン拡散デコーダを開発する。
X-Omniは、7B言語モデルを用いて画像生成タスクにおける最先端のパフォーマンスを達成し、高い美的品質の画像を生成できると同時に、指示に従って長いテキストを描画する強力な能力を示す。
論文 参考訳(メタデータ) (2025-07-29T17:59:04Z) - Boosting Generative Image Modeling via Joint Image-Feature Synthesis [15.133906625258797]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。
我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。
複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文 参考訳(メタデータ) (2025-04-22T17:41:42Z) - Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。
我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。
画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文 参考訳(メタデータ) (2025-03-17T17:58:30Z) - GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing [66.33454784945293]
Generation Chain-of-Thought(GoT)は、明示的な言語推論プロセスを通じて生成と編集を可能にする新しいパラダイムである。
GoTは従来のテキストから画像への生成と編集を推論誘導フレームワークに変換する。
論文 参考訳(メタデータ) (2025-03-13T17:59:59Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。