Fugu-MT 論文翻訳(概要): RL-RIG: A Generative Spatial Reasoner via Intrinsic Reflection

論文の概要: RL-RIG: A Generative Spatial Reasoner via Intrinsic Reflection

arxiv url: http://arxiv.org/abs/2602.19974v1
Date: Mon, 23 Feb 2026 15:39:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.886366
Title: RL-RIG: A Generative Spatial Reasoner via Intrinsic Reflection
Title（参考訳）: RL-RIG : 固有反射による空間共振器
Authors: Tianyu Wang, Zhiyuan Ma, Qian Wang, Xinyi Zhang, Xinwei Long, Bowen Zhou,
Abstract要約: RL-RIGは、リフレクションベースの画像生成のための強化学習フレームワークである。我々は,VLMアクタにプロンプトを編集するためのReflection-GRPOと,与えられたプロンプト下での画質向上のためのイメージエディタを開発する。実験結果から,RL-RIGは既存のオープンソースモデルよりも最大11%優れており,画像生成における空間的推論の制御が可能であることが示唆された。
参考スコア（独自算出の注目度）: 18.52946282633359
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in image generation have achieved impressive results in producing high-quality images. However, existing image generation models still generally struggle with a spatial reasoning dilemma, lacking the ability to accurately capture fine-grained spatial relationships from the prompt and correctly generate scenes with structural integrity. To mitigate this dilemma, we propose RL-RIG, a Reinforcement Learning framework for Reflection-based Image Generation. Our architecture comprises four primary components: Diffuser, Checker, Actor, and Inverse Diffuser, following a Generate-Reflect-Edit paradigm to spark the Chain of Thought reasoning ability in image generation for addressing the dilemma. To equip the model with better intuition over generation trajectories, we further develop Reflection-GRPO to train the VLM Actor for edit prompts and the Image Editor for better image quality under a given prompt, respectively. Unlike traditional approaches that solely produce visually stunning yet structurally unreasonable content, our evaluation metrics prioritize spatial accuracy, utilizing Scene Graph IoU and employing a VLM-as-a-Judge strategy to assess the spatial consistency of generated images on LAION-SG dataset. Experimental results show that RL-RIG outperforms existing state-of-the-art open-source models by up to 11% in terms of controllable and precise spatial reasoning in image generation.
Abstract（参考訳）: 画像生成の最近の進歩は、高品質な画像の生成において顕著な成果を上げている。しかし、既存の画像生成モデルは、通常、空間的推論ジレンマに苦慮し、プロンプトからきめ細かな空間関係を正確に捉え、構造的整合性のあるシーンを正しく生成する能力に欠ける。このジレンマを軽減するために,リフレクションに基づく画像生成のための強化学習フレームワークであるRL-RIGを提案する。我々のアーキテクチャは,Diffuser, Checker, Actor, Inverse Diffuserの4つの主要コンポーネントで構成されている。生成軌跡の直感性を向上させるため,我々はさらにリフレクション-GRPOを開発し,プロンプトを編集するためのVLMアクターと,与えられたプロンプト下での画質向上のためのイメージエディタを訓練する。 Scene Graph IoUを利用して、LAION-SGデータセット上で生成された画像の空間的一貫性を評価するためにVLM-as-a-Judge戦略を採用している。実験結果から,RL-RIGは既存のオープンソースモデルよりも最大11%優れており,画像生成における空間的推論の制御が可能であることが示唆された。

関連論文リスト

Interleaving Reasoning for Better Text-to-Image Generation [83.69082794730664]
テキストベース思考と画像合成を交互に行うIRG(Interleaving Reasoning Generation)を提案する。 IRGを効果的に訓練するために,2つのサブゴールをターゲットにしたIRGL(Interleaving Reasoning Generation Learning)を提案する。実験の結果、SoTAの性能はGenEval, WISE, TIIF, GenAI-Bench, OneIG-ENで5～10ポイント向上した。
論文参考訳（メタデータ） (2025-09-08T17:56:23Z)
AR-GRPO: Training Autoregressive Image Generation Models via Reinforcement Learning [56.71089466532673]
本稿では,自己回帰(AR)画像生成モデルにオンラインRLトレーニングを統合するアプローチであるAR-GRPOを提案する。クラス条件(クラス・ツー・イメージ)とテキスト条件(テキスト・ツー・イメージ)の両方のイメージ生成タスクについて包括的な実験を行う。その結果,様々な評価指標に対して一貫した改善が得られた。
論文参考訳（メタデータ） (2025-08-09T10:37:26Z)
HRR: Hierarchical Retrospection Refinement for Generated Image Detection [16.958383381415445]
階層的レトロスペクティブ再定義(HRR)と呼ばれる拡散モデルに基づく生成画像検出フレームワークを提案する。 HRRフレームワークは、生成した画像検出タスクにおいて、最先端のメソッドよりも優れたパフォーマンスを継続的に提供する。
論文参考訳（メタデータ） (2025-02-25T05:13:44Z)
Autoregressive Image Generation with Vision Full-view Prompt [18.569610688433745]
自動回帰画像生成のための視覚フルビュープロンプト(VFプロンプト)を提案する。 NLPの分野でのプロンプトエンジニアリングにインスパイアされ、自動回帰画像生成を改善するためにビジョンフルビュープロンプト(VFプロンプト)を提案する。
論文参考訳（メタデータ） (2025-02-24T08:44:01Z)
RealRAG: Retrieval-augmented Realistic Image Generation via Self-reflective Contrastive Learning [54.07026389388881]
第1回リアルタイムオブジェクトベース検索拡張生成フレームワーク(RealRAG)を提案する。 RealRAGは、生成モデルの知識ギャップを克服するために、現実世界の画像の学習と検索によって、細粒で目に見えない新しいオブジェクトを生成する。本フレームワークは, 生成モデルに対するきめ細かな視覚的知識を統合し, 歪み問題に対処し, オブジェクト生成における現実性を改善する。
論文参考訳（メタデータ） (2025-02-02T16:41:54Z)
Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文参考訳（メタデータ） (2025-01-31T09:53:47Z)
Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文参考訳（メタデータ） (2025-01-23T18:59:43Z)
Timestep-Aware Diffusion Model for Extreme Image Rescaling [47.89362819768323]
本稿では,時間認識拡散モデル(TADM)と呼ばれる,画像再スケーリングのための新しいフレームワークを提案する。 TADMは、事前訓練されたオートエンコーダの潜在空間で再スケーリング操作を行う。これは、事前訓練されたテキスト・ツー・イメージ拡散モデルによって学習された強力な自然画像の先行を効果的に活用する。
論文参考訳（メタデータ） (2024-08-17T09:51:42Z)
Semantic Guided Large Scale Factor Remote Sensing Image Super-resolution with Generative Diffusion Prior [13.148815217684277]
大規模因子超解像(SR)アルゴリズムは、軌道から取得した低解像度(LR)衛星データの最大化に不可欠である。既存の手法では、鮮明なテクスチャと正しい接地オブジェクトでSR画像を復元する際の課題に直面している。本稿では,大規模リモートセンシング画像の超解像を実現するための新しいフレームワークであるセマンティックガイド拡散モデル(SGDM)を提案する。
論文参考訳（メタデータ） (2024-05-11T16:06:16Z)
In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文参考訳（メタデータ） (2023-09-25T08:42:06Z)
A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文参考訳（メタデータ） (2021-12-07T05:22:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。