論文の概要: Unified Thinker: A General Reasoning Modular Core for Image Generation
- arxiv url: http://arxiv.org/abs/2601.03127v1
- Date: Tue, 06 Jan 2026 15:59:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:13.005067
- Title: Unified Thinker: A General Reasoning Modular Core for Image Generation
- Title(参考訳): Unified Thinker:画像生成のためのモジュラーコア
- Authors: Sashuai Zhou, Qiang Zhou, Jijin Hu, Hanqing Yang, Yue Cao, Junpeng Ma, Yinchao Ma, Jun Song, Tiezheng Ge, Cheng Yu, Bo Zheng, Zhou Zhao,
- Abstract要約: 汎用画像生成のためのタスクに依存しない推論アーキテクチャであるUnified Thinkerを提案する。
Unified Thinkerはイメージジェネレータから専用のThinkerを分離し、生成モデル全体をトレーニングすることなく、推論のモジュラーアップグレードを可能にする。
テキスト・画像生成と画像編集の実験により、Unified Thinkerは画像の推論と生成品質を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 57.665309753609144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite impressive progress in high-fidelity image synthesis, generative models still struggle with logic-intensive instruction following, exposing a persistent reasoning--execution gap. Meanwhile, closed-source systems (e.g., Nano Banana) have demonstrated strong reasoning-driven image generation, highlighting a substantial gap to current open-source models. We argue that closing this gap requires not merely better visual generators, but executable reasoning: decomposing high-level intents into grounded, verifiable plans that directly steer the generative process. To this end, we propose Unified Thinker, a task-agnostic reasoning architecture for general image generation, designed as a unified planning core that can plug into diverse generators and workflows. Unified Thinker decouples a dedicated Thinker from the image Generator, enabling modular upgrades of reasoning without retraining the entire generative model. We further introduce a two-stage training paradigm: we first build a structured planning interface for the Thinker, then apply reinforcement learning to ground its policy in pixel-level feedback, encouraging plans that optimize visual correctness over textual plausibility. Extensive experiments on text-to-image generation and image editing show that Unified Thinker substantially improves image reasoning and generation quality.
- Abstract(参考訳): 高忠実度画像合成の顕著な進歩にもかかわらず、生成モデルは論理集約的な指示に苦戦し、永続的な推論-実行のギャップを露呈する。
一方、クローズドソースシステム(例:Nano Banana)は、強力な推論駆動の画像生成を示し、現在のオープンソースモデルとの大きなギャップを浮き彫りにした。
このギャップを埋めるには、単により良いビジュアルジェネレータを必要とするだけでなく、実行可能な推論が必要である、と我々は主張する。
この目的のために,汎用画像生成のためのタスク依存推論アーキテクチャであるUnified Thinkerを提案し,多様なジェネレータやワークフローにプラグイン可能な統一計画コアとして設計した。
Unified Thinkerはイメージジェネレータから専用のThinkerを分離し、生成モデル全体をトレーニングすることなく、推論のモジュラーアップグレードを可能にする。
我々はまず、Thinkerのための構造化された計画インターフェースを構築し、次に強化学習を適用して、そのポリシーをピクセルレベルのフィードバックで基礎づけ、テキストの可視性よりも視覚的正しさを最適化する計画を奨励する。
テキスト・画像生成と画像編集に関する大規模な実験により、Unified Thinkerは画像の推論と生成品質を大幅に改善することが示された。
関連論文リスト
- RL-RIG: A Generative Spatial Reasoner via Intrinsic Reflection [18.52946282633359]
RL-RIGは、リフレクションベースの画像生成のための強化学習フレームワークである。
我々は,VLMアクタにプロンプトを編集するためのReflection-GRPOと,与えられたプロンプト下での画質向上のためのイメージエディタを開発する。
実験結果から,RL-RIGは既存のオープンソースモデルよりも最大11%優れており,画像生成における空間的推論の制御が可能であることが示唆された。
論文 参考訳(メタデータ) (2026-02-23T15:39:53Z) - Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation [47.97278965762397]
我々は、生成を動的で知識駆動のワークフローに変換する統合エージェントフレームワークであるMind-Brushを紹介します。
人間のような「思考-研究-創造」パラダイムをシミュレートして、Mind-Brushは、分配の概念を根絶するために、マルチモーダルなエビデンスを積極的に回収する。
大規模な実験により、Mind-Brushは統一モデルの能力を著しく向上させることが示された。
論文 参考訳(メタデータ) (2026-02-02T07:42:13Z) - HiCoGen: Hierarchical Compositional Text-to-Image Generation in Diffusion Models via Reinforcement Learning [66.99487505369254]
HiCoGenは、新しいChain of Synthesisパラダイムに基づいて構築されている。
複雑なプロンプトを最小の意味単位に分解する。
その後、これらのユニットを反復的に合成し、各ステップで生成された画像が次に重要な視覚的コンテキストを提供する。
実験により,提案手法は概念カバレッジと構成精度の両方において,既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-11-25T06:24:25Z) - ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection [51.93101033997245]
AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。
我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。
我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-09-24T07:34:09Z) - Understanding-in-Generation: Reinforcing Generative Capability of Unified Model via Infusing Understanding into Generation [43.98469957837991]
統一モデル(UiG)のための新しい推論フレームワークを提案する。
UiGの中核となる洞察は、推論過程において強力な理解能力によって生成誘導を統合することである。
我々のUiGフレームワークは,既存のテキスト・ツー・イメージ推論手法に比べて,テキスト・ツー・イメージ生成の性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2025-09-23T04:52:39Z) - Interleaving Reasoning for Better Text-to-Image Generation [83.69082794730664]
テキストベース思考と画像合成を交互に行うIRG(Interleaving Reasoning Generation)を提案する。
IRGを効果的に訓練するために,2つのサブゴールをターゲットにしたIRGL(Interleaving Reasoning Generation Learning)を提案する。
実験の結果、SoTAの性能はGenEval, WISE, TIIF, GenAI-Bench, OneIG-ENで5~10ポイント向上した。
論文 参考訳(メタデータ) (2025-09-08T17:56:23Z) - ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL [54.100889131719626]
連鎖推論と強化学習がNLPの突破口となった。
我々はReasonGen-R1を紹介した。ReasonGen-R1は自動回帰画像生成器に明示的なテキストベースの「思考」スキルを付与するフレームワークである。
ReasonGen-R1は、強いベースラインや先行技術モデルよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-05-30T17:59:48Z) - Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model [118.52589065972795]
テキストと画像の両モードをまたいで高速かつ並列に生成できる,統一的な離散拡散変換器であるMudditを導入する。
Mudditは、スクラッチからトレーニングされた以前の統一拡散モデルとは異なり、トレーニング済みのテキストからイメージまでのバックボーンから、強力な視覚的事前情報を軽量のテキストデコーダに統合する。
論文 参考訳(メタデータ) (2025-05-29T16:15:48Z) - Thinking with Generated Images [30.28526622443551]
我々は,大規模マルチモーダルモデル(LMM)が視覚的推論にどのように関与するかを変換する,新しいパラダイムであるThinking with Generated Imagesを紹介する。
我々のアプローチは、AIモデルが人間の創造的、分析的、戦略的思考を特徴づける視覚的想像力や反復的な洗練に関わり得ることを可能にする。
論文 参考訳(メタデータ) (2025-05-28T16:12:45Z) - Autoregressive Image Generation with Vision Full-view Prompt [18.569610688433745]
自動回帰画像生成のための視覚フルビュープロンプト(VFプロンプト)を提案する。
NLPの分野でのプロンプトエンジニアリングにインスパイアされ、自動回帰画像生成を改善するためにビジョンフルビュープロンプト(VFプロンプト)を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。