論文の概要: ThinkGen: Generalized Thinking for Visual Generation
- arxiv url: http://arxiv.org/abs/2512.23568v1
- Date: Mon, 29 Dec 2025 16:08:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.571779
- Title: ThinkGen: Generalized Thinking for Visual Generation
- Title(参考訳): ThinkGen: ビジュアルジェネレーションのための一般的な思考
- Authors: Siyu Jiao, Yiheng Lin, Yujie Zhong, Qi She, Wei Zhou, Xiaohan Lan, Zilong Huang, Fei Yu, Yingchen Yu, Yunqing Zhao, Yao Zhao, Yunchao Wei,
- Abstract要約: ThinkGenは、さまざまな世代のシナリオでChain-of-Thought(CoT)推論を明示的に活用する、思考駆動のビジュアル生成フレームワークである。
本稿では,MLLMとDiTモジュール間の強化学習を交互に行う,分離可能なGRPOベースのトレーニングパラダイムを提案する。
実験の結果、ThinkGenは複数の世代ベンチマークで堅牢で最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 97.19923474851987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in Multimodal Large Language Models (MLLMs) demonstrates that Chain-of-Thought (CoT) reasoning enables systematic solutions to complex understanding tasks. However, its extension to generation tasks remains nascent and limited by scenario-specific mechanisms that hinder generalization and adaptation. In this work, we present ThinkGen, the first think-driven visual generation framework that explicitly leverages MLLM's CoT reasoning in various generation scenarios. ThinkGen employs a decoupled architecture comprising a pretrained MLLM and a Diffusion Transformer (DiT), wherein the MLLM generates tailored instructions based on user intent, and DiT produces high-quality images guided by these instructions. We further propose a separable GRPO-based training paradigm (SepGRPO), alternating reinforcement learning between the MLLM and DiT modules. This flexible design enables joint training across diverse datasets, facilitating effective CoT reasoning for a wide range of generative scenarios. Extensive experiments demonstrate that ThinkGen achieves robust, state-of-the-art performance across multiple generation benchmarks. Code is available: https://github.com/jiaosiyuu/ThinkGen
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、Chain-of-Thought(CoT)推論が複雑な理解タスクに対する体系的な解決を可能にすることを示している。
しかし、生成タスクへの拡張は、一般化と適応を妨げるシナリオ固有のメカニズムによって、まだ初期段階で制限されている。
本稿では,MLLMのCoT推論を様々な世代シナリオで明示的に活用する,思考駆動型視覚生成フレームワークThinkGenを紹介する。
ThinkGen は事前訓練された MLLM と Diffusion Transformer (DiT) で構成される分離されたアーキテクチャを採用しており、MLLM はユーザ意図に基づいて調整された命令を生成し、DiT はこれらの命令によって誘導される高品質な画像を生成する。
さらに、MLLMとDiTモジュール間の強化学習を交互に行う、分離可能なGRPOベースのトレーニングパラダイム(SepGRPO)を提案する。
この柔軟な設計は、多様なデータセットをまたいだ共同トレーニングを可能にし、幅広い生成シナリオに対する効果的なCoT推論を容易にする。
大規模な実験では、ThinkGenは複数の世代ベンチマークで堅牢で最先端のパフォーマンスを実現している。
コードは:https://github.com/jiaosiyuu/ThinkGen
関連論文リスト
- TBAC-UniImage: Unified Understanding and Generation by Ladder-Side Diffusion Tuning [4.055271388591777]
本稿では,マルチモーダル理解と生成のための新しい統一モデルであるTBAC-UniImageを紹介する。
我々は、生成はしごとして機能する事前学習拡散モデルとマルチモーダル大言語モデル(MLLM)を深く統合することにより、これを実現できる。
論文 参考訳(メタデータ) (2025-08-11T15:37:22Z) - MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO [87.52631406241456]
近年のテキスト・ツー・イメージシステムは、マルチモーダル入力や複雑な推論タスクの処理において制限に直面している。
我々は、強化学習による推論生成を取り入れ、これらの課題に対処する統合マルチモーダルな大規模言語モデルであるMind Omniを紹介する。
論文 参考訳(メタデータ) (2025-05-19T12:17:04Z) - LayoutCoT: Unleashing the Deep Reasoning Potential of Large Language Models for Layout Generation [3.1627400208503653]
条件付きレイアウト生成は、ユーザが定義した制約から視覚的に魅力的でセマンティックに一貫性のあるレイアウトを自動的に生成することを目的としている。
本稿では,Large Language Models (LLMs) の推論能力を活用する新しい手法として,検索型拡張生成(RAG) とChain-of-Thought (CoT) 技術の組み合わせを提案する。
我々は3つの条件付きレイアウト生成タスクにまたがる5つの公開データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-04-15T03:12:01Z) - ARMOR: Empowering Multimodal Understanding Model with Interleaved Multimodal Generation Capability [14.703591553247948]
ARMORは、マルチモーダルな大規模言語モデルのためのリソース効率が高く純粋な自動回帰フレームワークである。
既存のMLLMを微調整することで、理解と生成を両立させる。
ARMOR は,既存の MLLM を UniM にアップグレードし,将来性のある画像生成機能を実現する。
論文 参考訳(メタデータ) (2025-03-09T10:15:39Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Meta-Task Prompting Elicits Embeddings from Large Language Models [54.757445048329735]
本稿では,新しい教師なしテキスト埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを紹介する。
モデル微調整を必要とせずに,大規模言語モデルから高品質な文埋め込みを生成する。
提案法は,多種多様なシナリオにまたがって生成を組み込む汎用的で資源効率のよい手法を提供する。
論文 参考訳(メタデータ) (2024-02-28T16:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。