論文の概要: GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.17022v1
- Date: Thu, 22 May 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.567092
- Title: GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning
- Title(参考訳): GoT-R1:強化学習による視覚生成のためのMLLMの推論能力の開放
- Authors: Chengqi Duan, Rongyao Fang, Yuqing Wang, Kun Wang, Linjiang Huang, Xingyu Zeng, Hongsheng Li, Xihui Liu,
- Abstract要約: GoT-R1は、視覚生成における意味空間推論を強化するために強化学習を適用するフレームワークである。
本稿では,MLLMを用いた2段階多次元報酬フレームワークを提案する。
実験の結果, T2I-CompBenchベンチマークで有意な改善が認められた。
- 参考スコア(独自算出の注目度): 47.592351387052545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual generation models have made remarkable progress in creating realistic images from text prompts, yet struggle with complex prompts that specify multiple objects with precise spatial relationships and attributes. Effective handling of such prompts requires explicit reasoning about the semantic content and spatial layout. We present GoT-R1, a framework that applies reinforcement learning to enhance semantic-spatial reasoning in visual generation. Building upon the Generation Chain-of-Thought approach, GoT-R1 enables models to autonomously discover effective reasoning strategies beyond predefined templates through carefully designed reinforcement learning. To achieve this, we propose a dual-stage multi-dimensional reward framework that leverages MLLMs to evaluate both the reasoning process and final output, enabling effective supervision across the entire generation pipeline. The reward system assesses semantic alignment, spatial accuracy, and visual quality in a unified approach. Experimental results demonstrate significant improvements on T2I-CompBench benchmark, particularly in compositional tasks involving precise spatial relationships and attribute binding. GoT-R1 advances the state-of-the-art in image generation by successfully transferring sophisticated reasoning capabilities to the visual generation domain. To facilitate future research, we make our code and pretrained models publicly available at https://github.com/gogoduan/GoT-R1.
- Abstract(参考訳): 視覚生成モデルは、テキストプロンプトから現実的なイメージを作成するために顕著な進歩を遂げてきたが、正確な空間的関係と属性を持つ複数のオブジェクトを指定する複雑なプロンプトに苦慮している。
このようなプロンプトを効果的に扱うには、意味的内容と空間的レイアウトを明確に推論する必要がある。
視覚生成における意味空間推論の強化に強化学習を適用したフレームワークであるGoT-R1を提案する。
Generation Chain-of-Thoughtアプローチに基づいて、GoT-R1は、慎重に設計された強化学習を通じて、事前に定義されたテンプレートを超えた効果的な推論戦略を自律的に発見することを可能にする。
そこで本稿では,MLLMを用いた2段階の多次元報酬フレームワークを提案する。
報酬システムは、統一されたアプローチで意味的アライメント、空間的精度、視覚的品質を評価する。
実験により,T2I-CompBenchベンチマークにおいて,特に正確な空間関係と属性結合を含む構成課題において,顕著な改善が示された。
GoT-R1は、高度な推論機能を視覚生成領域に転送することで、画像生成の最先端を推し進める。
将来の研究を促進するため、コードと事前訓練されたモデルをhttps://github.com/gogoduan/GoT-R1.comで公開しています。
関連論文リスト
- Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning [40.75264235359017]
VARGPT-v1.1は高度な統合視覚自己回帰モデルである。
このモデルは、視覚的理解のための次世代予測と画像合成のための次世代生成という2つのパラダイムを保存している。
マルチモーダル理解とテキスト・ツー・イメージ・インストラクション・フォロータスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-04-03T18:06:28Z) - GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing [66.33454784945293]
Generation Chain-of-Thought(GoT)は、明示的な言語推論プロセスを通じて生成と編集を可能にする新しいパラダイムである。
GoTは従来のテキストから画像への生成と編集を推論誘導フレームワークに変換する。
論文 参考訳(メタデータ) (2025-03-13T17:59:59Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。
我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文 参考訳(メタデータ) (2023-12-23T11:10:43Z) - LeftRefill: Filling Right Canvas based on Left Reference through
Generalized Text-to-Image Diffusion Model [55.20469538848806]
leftRefillは、参照誘導画像合成のための大規模なテキスト・ツー・イメージ(T2I)拡散モデルを利用する革新的なアプローチである。
本稿では、参照誘導画像合成に大規模なテキスト・ツー・イメージ拡散モデル(T2I)を効果的に活用するための革新的なアプローチであるLeftRefillを紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。