Fugu-MT 論文翻訳(概要): Enhancing Spatial Understanding in Image Generation via Reward Modeling

論文の概要: Enhancing Spatial Understanding in Image Generation via Reward Modeling

arxiv url: http://arxiv.org/abs/2602.24233v1
Date: Fri, 27 Feb 2026 17:59:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-02 19:48:24.550739
Title: Enhancing Spatial Understanding in Image Generation via Reward Modeling
Title（参考訳）: リワードモデリングによる画像生成における空間的理解の促進
Authors: Zhenyu Tang, Chaoran Feng, Yufan Deng, Jie Wu, Xiaojie Li, Rui Wang, Yunpeng Chen, Daquan Zhou,
Abstract要約: 本稿では,現在の画像生成モデルの空間的理解を強化する新しい手法を提案する。本研究では,テキスト・画像生成における空間関係の精度を評価するための報奨モデルであるSpatialScoreを構築した。
参考スコア（独自算出の注目度）: 23.754373024995132
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent progress in text-to-image generation has greatly advanced visual fidelity and creativity, but it has also imposed higher demands on prompt complexity-particularly in encoding intricate spatial relationships. In such cases, achieving satisfactory results often requires multiple sampling attempts. To address this challenge, we introduce a novel method that strengthens the spatial understanding of current image generation models. We first construct the SpatialReward-Dataset with over 80k preference pairs. Building on this dataset, we build SpatialScore, a reward model designed to evaluate the accuracy of spatial relationships in text-to-image generation, achieving performance that even surpasses leading proprietary models on spatial evaluation. We further demonstrate that this reward model effectively enables online reinforcement learning for the complex spatial generation. Extensive experiments across multiple benchmarks show that our specialized reward model yields significant and consistent gains in spatial understanding for image generation.
Abstract（参考訳）: 近年のテキスト・ツー・イメージ生成の進歩は、視覚的忠実さと創造性を大幅に進歩させてきたが、複雑な空間関係のエンコーディングにおいて、特に複雑さの促進により高い要求を課している。このような場合、満足な結果を達成するには、しばしば複数のサンプリング試行が必要となる。そこで本研究では,現在の画像生成モデルの空間的理解を強化する手法を提案する。まず、80k以上の好みのペアでSpatialReward-Datasetを構築します。このデータセットに基づいて,テキスト・画像生成における空間関係の精度を評価するための報酬モデルであるSpatialScoreを構築した。さらに、この報酬モデルにより、複雑な空間生成のためのオンライン強化学習が効果的に可能であることを実証する。複数のベンチマークによる大規模な実験により、画像生成のための空間的理解において、我々の特殊報酬モデルが有意かつ一貫した利益をもたらすことが示された。

関連論文リスト

RL-RIG: A Generative Spatial Reasoner via Intrinsic Reflection [18.52946282633359]
RL-RIGは、リフレクションベースの画像生成のための強化学習フレームワークである。我々は,VLMアクタにプロンプトを編集するためのReflection-GRPOと,与えられたプロンプト下での画質向上のためのイメージエディタを開発する。実験結果から,RL-RIGは既存のオープンソースモデルよりも最大11%優れており,画像生成における空間的推論の制御が可能であることが示唆された。
論文参考訳（メタデータ） (2026-02-23T15:39:53Z)
Hawk: Leveraging Spatial Context for Faster Autoregressive Text-to-Image Generation [87.00172597953228]
投機的復号化は、品質を損なうことなくテキスト生成を加速させる可能性を示している。我々は、画像の空間構造を利用して投機モデルをより正確で効率的な予測へと導く新しいアプローチであるHawkを紹介する。複数のテキストと画像のベンチマークの実験結果は、標準的なARモデルよりも1.71倍のスピードアップを示している。
論文参考訳（メタデータ） (2025-10-29T17:43:31Z)
Pisces: An Auto-regressive Foundation Model for Image Understanding and Generation [81.92275347127833]
統一モデルを開発する上で重要な課題は、画像理解に必要な視覚的特徴と生成の相違にある。本稿では,この課題に対処する自動回帰型マルチモーダル基盤モデルであるPiscesを紹介する。微妙なデータキュレーション、事前学習、微調整と組み合わせることで、ピッセは画像理解と画像生成の両方において競合する性能を達成する。
論文参考訳（メタデータ） (2025-06-12T06:37:34Z)
Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文参考訳（メタデータ） (2025-01-31T09:53:47Z)
Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文参考訳（メタデータ） (2025-01-23T18:59:43Z)
Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文参考訳（メタデータ） (2024-03-28T22:25:05Z)
DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation [0.0]
近年,拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げている。レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。本稿では,生成タスクを複数のサブタスクに分割する分割・コンカレント手法を提案する。
論文参考訳（メタデータ） (2024-03-11T03:24:44Z)
IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文参考訳（メタデータ） (2023-03-17T17:07:36Z)
Implicit Neural Representation Learning for Hyperspectral Image Super-Resolution [0.0]
Inlicit Neural Representations (INR)は、新しい効果的な表現として進歩を遂げている。本稿では、空間座標を対応するスペクトル放射率値にマッピングする連続関数により、HSIを表すINRに基づく新しいHSI再構成モデルを提案する。
論文参考訳（メタデータ） (2021-12-20T14:07:54Z)
InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文参考訳（メタデータ） (2021-12-08T21:39:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。