論文の概要: Self-Corrected Image Generation with Explainable Latent Rewards
- arxiv url: http://arxiv.org/abs/2603.24965v1
- Date: Thu, 26 Mar 2026 02:59:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.064785
- Title: Self-Corrected Image Generation with Explainable Latent Rewards
- Title(参考訳): 説明可能な遅延リワードによる自己補正画像生成
- Authors: Yinyi Luo, Hrishikesh Gokhale, Marios Savvides, Jindong Wang, Shengfeng He,
- Abstract要約: 我々は、説明可能なLatent RewarDを通じて生成をガイドする自己修正フレームワークであるxLARDを提案する。
xLARDは、モデル生成参照からの構造化されたフィードバックに基づいて遅延表現を洗練する軽量な修正器を導入している。
実験により、xLARDは、生成前の状態を維持しながら、意味的アライメントと視覚的忠実性を改善することが示された。
- 参考スコア(独自算出の注目度): 55.29175717238288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant progress in text-to-image generation, aligning outputs with complex prompts remains challenging, particularly for fine-grained semantics and spatial relations. This difficulty stems from the feed-forward nature of generation, which requires anticipating alignment without fully understanding the output. In contrast, evaluating generated images is more tractable. Motivated by this asymmetry, we propose xLARD, a self-correcting framework that uses multimodal large language models to guide generation through Explainable LAtent RewarDs. xLARD introduces a lightweight corrector that refines latent representations based on structured feedback from model-generated references. A key component is a differentiable mapping from latent edits to interpretable reward signals, enabling continuous latent-level guidance from non-differentiable image-level evaluations. This mechanism allows the model to understand, assess, and correct itself during generation. Experiments across diverse generation and editing tasks show that xLARD improves semantic alignment and visual fidelity while maintaining generative priors. Code is available at https://yinyiluo.github.io/xLARD/.
- Abstract(参考訳): テキスト・画像生成の大幅な進歩にもかかわらず、複雑なプロンプトによる出力の整列は、特に微粒な意味論や空間的関係において難しいままである。
この難しさは、出力を完全に理解せずにアライメントを予測する必要がある生成のフィードフォワードの性質に起因している。
対照的に、生成された画像を評価することはより魅力的である。
この非対称性を動機として,マルチモーダルな大規模言語モデルを用いた自己修正フレームワークであるxLARDを提案する。
xLARDは、モデル生成参照からの構造化されたフィードバックに基づいて遅延表現を洗練する軽量な修正器を導入している。
重要なコンポーネントは、遅延編集から解釈可能な報酬信号への微分可能なマッピングであり、非微分可能な画像レベル評価からの連続的な遅延レベルガイダンスを可能にする。
このメカニズムにより、モデルが生成時に自分自身を理解し、評価し、修正することができる。
多様な生成および編集タスクにわたる実験により、xLARDは、生成前の状態を維持しながら、セマンティックアライメントと視覚的忠実性を改善することが示されている。
コードはhttps://yinyiluo.github.io/xLARD/で入手できる。
関連論文リスト
- Understanding-in-Generation: Reinforcing Generative Capability of Unified Model via Infusing Understanding into Generation [43.98469957837991]
統一モデル(UiG)のための新しい推論フレームワークを提案する。
UiGの中核となる洞察は、推論過程において強力な理解能力によって生成誘導を統合することである。
我々のUiGフレームワークは,既存のテキスト・ツー・イメージ推論手法に比べて,テキスト・ツー・イメージ生成の性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2025-09-23T04:52:39Z) - ControlThinker: Unveiling Latent Semantics for Controllable Image Generation through Visual Reasoning [76.2503352325492]
ControlThinkerは、"Comprehend-then-generate"パラダイムを採用した、新しいフレームワークである。
制御画像からの潜在セマンティクスは、テキストプロンプトを豊かにするためにマイニングされる。
このリッチなセマンティック理解は、追加の複雑な修正を必要とせずに、画像生成をシームレスに支援する。
論文 参考訳(メタデータ) (2025-06-04T05:56:19Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。
我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。
画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文 参考訳(メタデータ) (2025-03-17T17:58:30Z) - Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。
本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文 参考訳(メタデータ) (2020-07-17T21:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。