論文の概要: ImageDoctor: Diagnosing Text-to-Image Generation via Grounded Image Reasoning
- arxiv url: http://arxiv.org/abs/2510.01010v1
- Date: Wed, 01 Oct 2025 15:15:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.636902
- Title: ImageDoctor: Diagnosing Text-to-Image Generation via Grounded Image Reasoning
- Title(参考訳): ImageDoctor:グラウンドドイメージ推論によるテキストから画像生成の診断
- Authors: Yuxiang Guo, Jiang Liu, Ze Wang, Hao Chen, Ximeng Sun, Yang Zhao, Jialian Wu, Xiaodong Yu, Zicheng Liu, Emad Barsoum,
- Abstract要約: ImageDoctorは統合されたマルチアスペクトT2Iモデル評価フレームワークである。
画像品質は、可視性、セマンティックアライメント、美学、全体的な品質の4つの相補的な次元で評価される。
ImageDoctorはまた、ヒートマップの形でピクセルレベルの欠陥インジケータも提供する。
- 参考スコア(独自算出の注目度): 27.487909813142796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of text-to-image (T2I) models has increased the need for reliable human preference modeling, a demand further amplified by recent progress in reinforcement learning for preference alignment. However, existing approaches typically quantify the quality of a generated image using a single scalar, limiting their ability to provide comprehensive and interpretable feedback on image quality. To address this, we introduce ImageDoctor, a unified multi-aspect T2I model evaluation framework that assesses image quality across four complementary dimensions: plausibility, semantic alignment, aesthetics, and overall quality. ImageDoctor also provides pixel-level flaw indicators in the form of heatmaps, which highlight misaligned or implausible regions, and can be used as a dense reward for T2I model preference alignment. Inspired by the diagnostic process, we improve the detail sensitivity and reasoning capability of ImageDoctor by introducing a "look-think-predict" paradigm, where the model first localizes potential flaws, then generates reasoning, and finally concludes the evaluation with quantitative scores. Built on top of a vision-language model and trained through a combination of supervised fine-tuning and reinforcement learning, ImageDoctor demonstrates strong alignment with human preference across multiple datasets, establishing its effectiveness as an evaluation metric. Furthermore, when used as a reward model for preference tuning, ImageDoctor significantly improves generation quality -- achieving an improvement of 10% over scalar-based reward models.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルの急速な進歩により、信頼性の高い人間の嗜好モデリングの必要性が増大し、近年の嗜好アライメントのための強化学習の進歩によりさらに需要が増幅された。
しかし、既存のアプローチは、通常、単一のスカラーを使用して生成された画像の品質を定量化し、画像の品質に対する包括的で解釈可能なフィードバックを提供する能力を制限する。
これを解決するために、ImageDoctorという統合されたマルチアスペクトT2Iモデル評価フレームワークを導入し、画像品質を4つの相補的次元(可視性、セマンティックアライメント、美学、全体品質)で評価する。
ImageDoctorはまた、ヒートマップの形でピクセルレベルの欠陥インジケータを提供しており、ミスアライメントや不確実な領域を強調し、T2Iモデルのリセットアライメントの高密度な報酬として使用することができる。
診断プロセスに触発されて、まずモデルが潜在的な欠陥をローカライズし、次に推論を生成し、最終的に定量的スコアで評価を終了する"ルック・シンク・予測"パラダイムを導入することにより、ImageDoctorの詳細な感度と推論能力を向上させる。
ImageDoctorは視覚言語モデルの上に構築され、教師付き微調整と強化学習の組み合わせによってトレーニングされる。
さらに、リコメンデーションチューニングの報酬モデルとして使用すると、ImageDoctorは生成品質を大幅に改善し、スカラーベースの報酬モデルよりも10%改善する。
関連論文リスト
- Adaptive Contrast Adjustment Module: A Clinically-Inspired Plug-and-Play Approach for Enhanced Fetal Plane Classification [4.501187731017252]
画像のコントラストを調整した医師が、より明瞭で識別性の高い構造情報を得るための臨床実践から着想を得た、プラグアンドプレイ適応コントラスト調整モジュールを提案する。
モジュールは様々なモデルのパフォーマンスを継続的に改善し、軽量モデルの精度は2.02%向上し、従来のモデルの精度は1.29%向上し、最先端モデルの精度は1.15%向上した。
このアプローチは,低レベルの画像特徴と高レベルのセマンティクスを効果的に橋渡しし,実世界の画像品質変化下での医用画像分析の新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-08-31T11:46:51Z) - Enhancing Reward Models for High-quality Image Generation: Beyond Text-Image Alignment [63.823383517957986]
テキスト画像アライメントの目的を達成し,達成する新しい評価スコアであるICT(Image-Contained-Text)を提案する。
さらに、画像モダリティのみを用いてHPスコアモデル(High-Preference)をトレーニングし、画像美学とディテール品質を向上させる。
論文 参考訳(メタデータ) (2025-07-25T07:01:50Z) - Advancing AI-Powered Medical Image Synthesis: Insights from MedVQA-GI Challenge Using CLIP, Fine-Tuned Stable Diffusion, and Dream-Booth + LoRA [3.290817968509798]
MEDVQA-GIチャレンジは、医療診断におけるAI駆動のテキスト・ツー・イメージ生成モデルの統合に対処する。
本研究では、テキスト記述から動的でスケーラブルで正確な画像を生成するための微調整生成モデルに基づく新しいアプローチを提案する。
我々のシステムは、安定拡散モデルとドリームブースモデルと、ローランド適応(LORA)を統合し、高忠実度医療画像を生成する。
論文 参考訳(メタデータ) (2025-02-28T02:49:45Z) - DiffDoctor: Diagnosing Image Diffusion Models Before Treating [57.82359018425674]
DiffDoctorは2段階のパイプラインで、画像拡散モデルがより少ないアーティファクトを生成するのを支援する。
我々は100万以上の欠陥のある合成画像のデータセットを収集し、効率的なHuman-in-the-loopアノテーションプロセスを構築した。
次に、学習したアーティファクト検出器が第2段階に関与し、ピクセルレベルのフィードバックを提供することで拡散モデルを最適化する。
論文 参考訳(メタデータ) (2025-01-21T18:56:41Z) - PrefPaint: Aligning Image Inpainting Diffusion Model with Human Preference [62.72779589895124]
画像インペイントのための拡散モデルと人間の審美基準との整合性を、強化学習フレームワークを用いて初めて試みる。
我々は、人間の好みを付加した約51,000枚の画像からなるデータセットで報酬モデルを訓練する。
画像拡張や3次元再構成などの下流タスクの塗装比較実験により, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-29T11:49:39Z) - G-Refine: A General Quality Refiner for Text-to-Image Generation [74.16137826891827]
G-Refineは,高画質画像の整合性を損なうことなく,低画質画像の高精細化を図った汎用画像精細機である。
このモデルは、知覚品質指標、アライメント品質指標、一般的な品質向上モジュールの3つの相互接続モジュールで構成されている。
大規模な実験により、G-Refine以降のAIGIは、4つのデータベースで10以上の品質指標でパフォーマンスが向上していることが明らかになった。
論文 参考訳(メタデータ) (2024-04-29T00:54:38Z) - Adapting Pretrained Vision-Language Foundational Models to Medical
Imaging Domains [3.8137985834223502]
臨床の文脈を忠実に描写する医療画像の生成モデルを構築することは、医療データセットの不明瞭さを軽減するのに役立つ。
安定拡散パイプラインのサブコンポーネントを探索し、モデルを微調整して医用画像を生成する。
我々の最良の性能モデルは、安定な拡散ベースラインを改善し、合成ラジオグラフィ画像に現実的な異常を挿入するように条件付けすることができる。
論文 参考訳(メタデータ) (2022-10-09T01:43:08Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。