論文の概要: Benchmarking and Evolving Reason-Reflect-Rectify for Reflective Visual Generation
- arxiv url: http://arxiv.org/abs/2605.19639v1
- Date: Tue, 19 May 2026 10:24:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.277853
- Title: Benchmarking and Evolving Reason-Reflect-Rectify for Reflective Visual Generation
- Title(参考訳): リフレクティブビジュアル生成のためのベンチマークとReason-Reflect-Rectifyの進化
- Authors: Junjie Wang, Xinghua Lou, Jason Li, Ye Tian, Keyu Chen, Yulin Li, Bin Kang, Jacky Mai, Yanwei Li, Zhuotao Tian, Liqiang Nie,
- Abstract要約: マルチラウンド・リフレクティブ・ビジュアル・ジェネレーション(RVG)を実現するためのコア・フレームワークとしてReason-Reflect-Rectify(R3)ループを形式化する。
R3-Benchは600以上のエキスパートアノテーション付きインスタンスのベンチマークで、反復的推論と修正機能を定量化します。
実験の結果、R3-RefinerはR3-Benchを大幅に改善した。
- 参考スコア(独自算出の注目度): 65.7390808636333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Image (T2I) models and Unified Multimodal Models (UMMs) have achieved remarkable progress in visual generation. However, their reliance on a single-pass generation paradigm limits their ability to handle complex prompts requiring iterative refinement. To enable multi-round Reflective Visual Generation (RVG), we formalize the Reason-Reflect-Rectify (R^3) loop as a core framework and introduce R^3-Bench, a benchmark of over 600 expert-annotated instances that quantifies iterative reasoning and rectification capabilities. Evaluation on R^3-Bench reveals a critical gap: while state-of-the-art models can identify generation errors, they fail to generate actionable rectification instructions. To bridge this gap, we propose R^3-Refiner, a dual-stage framework leveraging Group Relative Policy Optimization (GRPO) and a Hierarchical Reward Mechanism (HRM) to better align rectification with reflective reasoning. Experiments show that R^3-Refiner achieves significant improvements on R^3-Bench (+12.0% in Reflective Verdict Score, +9.0% in Rectification Score), and can be seamlessly integrated with various MLLMs to enhance the generation quality of different T2I models on GenEval++ and T2I-CompBench. Code is available at https://github.com/xiaomoguhz/R3-Bench.
- Abstract(参考訳): テキスト・ツー・イメージ・モデル (T2I) と統一マルチモーダル・モデル (UMM) は視覚生成において顕著な進歩を遂げている。
しかし、シングルパス生成パラダイムへの依存は、反復的な改善を必要とする複雑なプロンプトを扱う能力を制限する。
マルチラウンド・リフレクティブ・ビジュアル・ジェネレーション(RVG)を実現するため、コアフレームワークとしてReason-Reflect-Rectify(R^3)ループを形式化し、反復推論と修正機能を定量化する600以上のエキスパートアノテーション付きインスタンスのベンチマークであるR^3-Benchを導入する。
R^3-Benchの評価には重大なギャップがある: 最先端のモデルでは生成エラーを識別できるが、実行可能な修正命令を生成できない。
このギャップを埋めるために,グループ相対的政策最適化(GRPO)と階層的リワード機構(HRM)を利用した2段階のフレームワークであるR^3-Refinerを提案する。
実験の結果、R^3-RefinerはR^3-Bench(Relective Verdict Scoreで+12.0%、Rectification Scoreで+9.0%)を大幅に改善し、さまざまなMLLMとシームレスに統合することで、GenEval++とT2I-CompBenchで異なるT2Iモデルの生成品質を向上させることができた。
コードはhttps://github.com/xiaomoguhz/R3-Bench.comで入手できる。
関連論文リスト
- CLEAR: Unlocking Generative Potential for Degraded Image Understanding in Unified Multimodal Models [23.357627415320025]
理解と生成を組み合わせたマルチモーダルモデルは、劣化した入力に自身の生成能力を利用することができない。
本稿では,2つの機能を3段階のプログレッシブステップで接続するフレームワークであるCLEARを紹介する。
実験により、CLEARはクリーンイメージ性能を維持しながら、劣化した入力に対するロバスト性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2026-04-06T15:54:00Z) - RAISE: Requirement-Adaptive Evolutionary Refinement for Training-Free Text-to-Image Alignment [37.59966317174412]
本稿では,適応型T2I生成のためのトレーニングフリーで要求駆動型進化フレームワークであるRAISEを紹介する。
RAISEは要求駆動適応スケーリングプロセスとして画像生成を定式化する。
GenEvalとDrawBenchでは、RAISEは最先端のアライメントを実現している。
論文 参考訳(メタデータ) (2026-02-28T05:53:01Z) - OCR-Agent: Agentic OCR with Capability and Memory Reflection [5.8505408398110434]
VLM(Large Vision-Language Models)は、複雑な視覚理解タスクにおいて大きな可能性を証明している。
本稿では,機能的リフレクションとメモリリフレクションという2つの重要な機能を備えたモデルを実現する,新しい反復自己補正フレームワークを提案する。
挑戦的なOCRBench v2ベンチマークの実験によると、OCR-Agentは現在のオープンソースSOTAモデルであるInternVL3-8Bを英語で+2.0、中国語サブセットで+1.2で上回っている。
論文 参考訳(メタデータ) (2026-02-24T16:10:27Z) - GenAgent: Scaling Text-to-Image Generation via Agentic Multimodal Reasoning [54.42973725693]
我々は,エージェント型マルチモーダルモデルを用いて,視覚的理解と生成を統一したGenAgentを導入する。
GenAgentはGenEval++とWISEのベースジェネレータ(FLUX.1-dev)のパフォーマンスを大幅に向上させる。
本フレームワークは,1) 様々な機能を持つジェネレータへのクロスツール一般化,2) インタラクションラウンド間で一貫した改善を伴うテスト時間スケーリング,3) タスクに自動的に適応するタスク適応推論の3つの重要な特性を示す。
論文 参考訳(メタデータ) (2026-01-26T14:49:04Z) - A2R: An Asymmetric Two-Stage Reasoning Framework for Parallel Reasoning [57.727084580884075]
モデルポテンシャルと実際の性能の間のギャップを埋めるために設計された非対称な2段階推論フレームワーク。
A2R-Efficientは、Qwen3-4BとQwen3-8Bシンセサイザーを組み合わせた「小型から大型」の派生型である。
その結果、A2Rはパフォーマンス・ブートスティングのフレームワークであるだけでなく、現実世界のアプリケーションに対して効率的かつ実用的なソリューションであることがわかった。
論文 参考訳(メタデータ) (2025-09-26T08:27:03Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Vision-Language Models Can Self-Improve Reasoning via Reflection [20.196406628954303]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上を実証した。
本稿では,自己学習フレームワークR3Vを提案する。このフレームワークは,CoTレーショナル上でのリフレクションにより,モデルの視覚言語推論を反復的に強化する。
提案手法は, 生成した解に対する自己回帰をサポートし, テスト時間計算による性能向上を図っている。
論文 参考訳(メタデータ) (2024-10-30T14:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。