論文の概要: Enhancing Reward Models for High-quality Image Generation: Beyond Text-Image Alignment
- arxiv url: http://arxiv.org/abs/2507.19002v1
- Date: Fri, 25 Jul 2025 07:01:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.853101
- Title: Enhancing Reward Models for High-quality Image Generation: Beyond Text-Image Alignment
- Title(参考訳): 高品質画像生成のためのリワードモデルの強化:テキスト画像アライメントを超えて
- Authors: Ying Ba, Tianyu Zhang, Yalong Bai, Wenyi Mo, Tao Liang, Bing Su, Ji-Rong Wen,
- Abstract要約: テキスト画像アライメントの目的を達成し,達成する新しい評価スコアであるICT(Image-Contained-Text)を提案する。
さらに、画像モダリティのみを用いてHPスコアモデル(High-Preference)をトレーニングし、画像美学とディテール品質を向上させる。
- 参考スコア(独自算出の注目度): 63.823383517957986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contemporary image generation systems have achieved high fidelity and superior aesthetic quality beyond basic text-image alignment. However, existing evaluation frameworks have failed to evolve in parallel. This study reveals that human preference reward models fine-tuned based on CLIP and BLIP architectures have inherent flaws: they inappropriately assign low scores to images with rich details and high aesthetic value, creating a significant discrepancy with actual human aesthetic preferences. To address this issue, we design a novel evaluation score, ICT (Image-Contained-Text) score, that achieves and surpasses the objectives of text-image alignment by assessing the degree to which images represent textual content. Building upon this foundation, we further train an HP (High-Preference) score model using solely the image modality to enhance image aesthetics and detail quality while maintaining text-image alignment. Experiments demonstrate that the proposed evaluation model improves scoring accuracy by over 10\% compared to existing methods, and achieves significant results in optimizing state-of-the-art text-to-image models. This research provides theoretical and empirical support for evolving image generation technology toward higher-order human aesthetic preferences. Code is available at https://github.com/BarretBa/ICTHP.
- Abstract(参考訳): 現代画像生成システムは, 基本的なテキスト画像アライメントを超えて, 忠実度が高く, 審美性に優れている。
しかし、既存の評価フレームワークは並列に進化しなかった。
本研究は,CLIPおよびBLIPアーキテクチャに基づいて微調整された人間の嗜好報酬モデルに固有の欠陥があることを明らかにする。
そこで本研究では,画像がテキストコンテンツを表す度合いを評価することによって,テキストアライメントの目的を達成し,達成し,達成するICT(画像コンテンツ)スコアを設計する。
この基礎の上に、画像モダリティのみを用いたHP(High-Preference)スコアモデルをさらに訓練し、テキスト・イメージアライメントを維持しながら、画像の美学と細部品質を向上させる。
実験により,提案した評価モデルは,既存の手法と比較して10倍以上の評価精度を向上し,最先端のテキスト画像モデルの最適化に有意な結果が得られた。
本研究は,高次人間の美的嗜好に対する画像生成技術の進化に対する理論的,実証的な支援を提供する。
コードはhttps://github.com/BarretBa/ICTHPで入手できる。
関連論文リスト
- Scene Perceived Image Perceptual Score (SPIPS): combining global and local perception for image quality assessment [0.0]
深層学習と人間の知覚のギャップを埋める新しいIQA手法を提案する。
我々のモデルは、深い特徴を高レベルの意味情報と低レベルの知覚の詳細に分解し、それぞれのストリームを別々に扱う。
このハイブリッド設計により、グローバルコンテキストと複雑な画像の詳細の両方を評価し、人間の視覚過程をより良く反映することができる。
論文 参考訳(メタデータ) (2025-04-24T04:06:07Z) - TypeScore: A Text Fidelity Metric for Text-to-Image Generative Models [39.06617653124486]
我々はTypeScoreと呼ばれる新しい評価フレームワークを導入し、モデルが高忠実な埋め込みテキストで画像を生成する能力を評価する。
提案手法は、CLIPScoreよりも高解像度で、一般的な画像生成モデルを区別する。
論文 参考訳(メタデータ) (2024-11-02T07:56:54Z) - KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - A Survey on Quality Metrics for Text-to-Image Generation [9.753473063305503]
AIベースのテキスト・ツー・イメージモデルは、現実的な画像の生成に優れるだけでなく、デザイナーが画像の内容をより細かく制御できるようになっている。
これらのアプローチはコンピュータグラフィックス研究コミュニティ内で注目を集めている。
本稿では,このようなテキスト・ツー・イメージの品質指標の概要を概観し,これらの指標を分類するための分類法を提案する。
論文 参考訳(メタデータ) (2024-03-18T14:24:20Z) - Evaluating Text-to-Image Generative Models: An Empirical Study on Human Image Synthesis [21.619269792415903]
本稿では,テキスト・ツー・イメージ(T2I)生成モデルのためのニュアンス評価フレームワークを提案する。
まず,美学やリアリズムといったイメージの質に着目し,第2に,概念的カバレッジと公平性を通じてテキスト条件を検証した。
論文 参考訳(メタデータ) (2024-03-08T07:41:47Z) - ENTED: Enhanced Neural Texture Extraction and Distribution for
Reference-based Blind Face Restoration [51.205673783866146]
我々は,高品質でリアルな肖像画を復元することを目的とした,ブラインドフェイス修復のための新しいフレームワークであるENTEDを提案する。
劣化した入力画像と参照画像の間で高品質なテクスチャ特徴を伝達するために,テクスチャ抽出と分布の枠組みを利用する。
われわれのフレームワークにおけるStyleGANのようなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。
論文 参考訳(メタデータ) (2024-01-13T04:54:59Z) - Holistic Evaluation of Text-To-Image Models [153.47415461488097]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。
テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。
以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文 参考訳(メタデータ) (2023-11-07T19:00:56Z) - Emu: Enhancing Image Generation Models Using Photogenic Needles in a
Haystack [75.00066365801993]
Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。
これらの事前訓練されたモデルは、高度に美的な画像を生成することに関して、しばしば課題に直面します。
本稿では,高度に視覚的に魅力的な画像のみを生成するために,事前学習されたモデルを誘導する品質チューニングを提案する。
論文 参考訳(メタデータ) (2023-09-27T17:30:19Z) - Likelihood-Based Text-to-Image Evaluation with Patch-Level Perceptual
and Semantic Credit Assignment [48.835298314274254]
生成した画像の可能性を直接推定し,テキスト・画像生成性能を評価する。
高い確率は、知覚品質が向上し、テキスト画像のアライメントが向上することを示している。
これらのモデルの生成能力を、数百のサンプルで評価することができる。
論文 参考訳(メタデータ) (2023-08-16T17:26:47Z) - ALL-E: Aesthetics-guided Low-light Image Enhancement [45.40896781156727]
我々は、新しいパラダイム、すなわち美学誘導低光画像強調(ALL-E)を提案する。
LLEに美的嗜好を導入し、美的報酬を伴う強化学習フレームワークでのトレーニングを動機付けている。
様々なベンチマークの結果は、最先端手法よりもall-Eの方が優れていることを示している。
論文 参考訳(メタデータ) (2023-04-28T03:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。