論文の概要: RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards
- arxiv url: http://arxiv.org/abs/2512.00473v1
- Date: Sat, 29 Nov 2025 12:52:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.255656
- Title: RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards
- Title(参考訳): RealGen: 検出器誘導リワードによるフォトリアリスティックテキスト・画像生成
- Authors: Junyan Ye, Leiqi Zhu, Yuncheng Guo, Dongzhi Jiang, Zilong Huang, Yifan Zhang, Zhiyuan Yan, Haohuan Fu, Conghui He, Weijia Li,
- Abstract要約: フォトリアリスティック画像生成のためのテキスト・ツー・イメージ・フレームワークであるRealGenを提案する。
敵対的生成にインスパイアされたRealGenは、アーティファクトを定量化し、リアリズムを評価する"Detector Reward"メカニズムを導入した。
実験によると、RealGenはGPT-Image-1やQwen-Imageといった一般的なモデルやFLUX-Kreaのような特殊なフォトリアリスティックモデルよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 53.25632969696776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the continuous advancement of image generation technology, advanced models such as GPT-Image-1 and Qwen-Image have achieved remarkable text-to-image consistency and world knowledge However, these models still fall short in photorealistic image generation. Even on simple T2I tasks, they tend to produce " fake" images with distinct AI artifacts, often characterized by "overly smooth skin" and "oily facial sheens". To recapture the original goal of "indistinguishable-from-reality" generation, we propose RealGen, a photorealistic text-to-image framework. RealGen integrates an LLM component for prompt optimization and a diffusion model for realistic image generation. Inspired by adversarial generation, RealGen introduces a "Detector Reward" mechanism, which quantifies artifacts and assesses realism using both semantic-level and feature-level synthetic image detectors. We leverage this reward signal with the GRPO algorithm to optimize the entire generation pipeline, significantly enhancing image realism and detail. Furthermore, we propose RealBench, an automated evaluation benchmark employing Detector-Scoring and Arena-Scoring. It enables human-free photorealism assessment, yielding results that are more accurate and aligned with real user experience. Experiments demonstrate that RealGen significantly outperforms general models like GPT-Image-1 and Qwen-Image, as well as specialized photorealistic models like FLUX-Krea, in terms of realism, detail, and aesthetics. The code is available at https://github.com/yejy53/RealGen.
- Abstract(参考訳): 画像生成技術の継続的な進歩により、GPT-Image-1 や Qwen-Image のような高度なモデルでは、テキスト間の一貫性と世界的知識が顕著に達成されているが、これらのモデルは依然としてフォトリアリスティックな画像生成では不足している。
単純なT2Iタスクでも、異なるAIアーティファクトを持つ「偽の」イメージを生成する傾向があり、しばしば「過度に滑らかな肌」と「華やかな顔の毛」が特徴である。
そこで本研究では,写真リアリスティックなテキスト・ツー・イメージ・フレームワークであるRealGenを提案する。
RealGenは、迅速な最適化のためのLLMコンポーネントと、現実的な画像生成のための拡散モデルを統合する。
このメカニズムは、アーティファクトを定量化し、意味レベルと特徴レベルの両方の合成画像検出器を使用してリアリズムを評価する。
我々はこの報酬信号とGRPOアルゴリズムを利用して生成パイプライン全体を最適化し、画像リアリズムとディテールを大幅に向上させる。
さらに,RealBenchを提案する。RealBenchは,インテグレータ・スコアリングとアリーナ・スコアリングを併用した自動評価ベンチマークである。
人間の自由なフォトリアリズムアセスメントを可能にし、より正確で実際のユーザエクスペリエンスと整合した結果を得る。
実験によると、RealGenはGPT-Image-1やQwen-Imageのような一般的なモデルやFLUX-Kreaのような特殊なフォトリアリスティックモデルよりも、リアリズム、ディテール、美学においてはるかに優れています。
コードはhttps://github.com/yejy53/RealGenで入手できる。
関連論文リスト
- ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies [25.96895266979283]
本稿では,VRシーンのコンパクト・ワールドコンディションのためのエージェント誘導フレームワークWeImmerseGenについて述べる。
本稿では,複雑なテクスチャをセマンティックなモデリングでバイパスする手法を提案する。
実験では、ユーザー効率の向上とモバイルヘッドセットでのVRレンダリングの改善が示されている。
論文 参考訳(メタデータ) (2025-06-17T08:50:05Z) - RealRAG: Retrieval-augmented Realistic Image Generation via Self-reflective Contrastive Learning [54.07026389388881]
第1回リアルタイムオブジェクトベース検索拡張生成フレームワーク(RealRAG)を提案する。
RealRAGは、生成モデルの知識ギャップを克服するために、現実世界の画像の学習と検索によって、細粒で目に見えない新しいオブジェクトを生成する。
本フレームワークは, 生成モデルに対するきめ細かな視覚的知識を統合し, 歪み問題に対処し, オブジェクト生成における現実性を改善する。
論文 参考訳(メタデータ) (2025-02-02T16:41:54Z) - EnvGS: Modeling View-Dependent Appearance with Environment Gaussian [78.74634059559891]
EnvGSは、環境の反射を捉えるための明示的な3D表現として、ガウスプリミティブのセットを利用する新しいアプローチである。
これらの環境を効率的にレンダリングするために,高速レンダリングにGPUのRTコアを利用するレイトレーシングベースのリフレクションを開発した。
複数の実世界および合成データセットから得られた結果は,本手法がより詳細な反射を生成することを示す。
論文 参考訳(メタデータ) (2024-12-19T18:59:57Z) - Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。
機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。
ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文 参考訳(メタデータ) (2024-09-24T08:46:13Z) - Solutions to Deepfakes: Can Camera Hardware, Cryptography, and Deep Learning Verify Real Images? [51.3344199560726]
信頼性の高い合成データから実際のデータを分離する手法を確立することが不可欠である。
この文書は、どの画像が本物かを検証するために使用できる検出と暗号に関する既知の戦略を提示することを目的としている。
論文 参考訳(メタデータ) (2024-07-04T22:01:21Z) - PatchCraft: Exploring Texture Patch for Efficient AI-generated Image
Detection [39.820699370876916]
本稿では,多種多様な生成モデルを用いて生成した偽画像を識別できる新しいAI生成画像検出器を提案する。
グローバルな意味情報を消去し,テクスチャパッチを強化するために,新しいSmash&Reconstruction前処理を提案する。
我々のアプローチは最先端のベースラインよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-11-21T07:12:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。