論文の概要: MagicMirror: A Large-Scale Dataset and Benchmark for Fine-Grained Artifacts Assessment in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2509.10260v1
- Date: Fri, 12 Sep 2025 14:03:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.114031
- Title: MagicMirror: A Large-Scale Dataset and Benchmark for Fine-Grained Artifacts Assessment in Text-to-Image Generation
- Title(参考訳): MagicMirror: テキスト・画像生成における細粒度アーチファクト評価のための大規模データセットとベンチマーク
- Authors: Jia Wang, Jie Hu, Xiaoqi Ma, Hanghang Ma, Yanbing Zeng, Xiaoming Wei,
- Abstract要約: テキスト・ツー・イメージ (T2I) 生成は, 指示の追従と美学において顕著な進歩を遂げている。
永続的な課題は、解剖学的な欠陥や構造的な欠陥など、物理的アーティファクトの出現である。
アーティファクトアセスメントのための包括的なフレームワークであるMagicMirrorを紹介します。
- 参考スコア(独自算出の注目度): 19.661383518778965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image (T2I) generation has achieved remarkable progress in instruction following and aesthetics. However, a persistent challenge is the prevalence of physical artifacts, such as anatomical and structural flaws, which severely degrade perceptual quality and limit application. Given the diversity and complexity of these artifacts, a systematic and fine-grained evaluation framework is required, which is lacking in current benchmarks. To fill this gap, we introduce MagicMirror, a comprehensive framework for artifacts assessment. We first establish a detailed taxonomy of generated image artifacts. Guided by this taxonomy, we manually annotate MagicData340K, the first human-annotated large-scale dataset of 340K generated images with fine-grained artifact labels. Building on this dataset, we train MagicAssessor, a Vision-Language Model (VLM) that provides detailed assessments and corresponding labels. To overcome challenges like class imbalance and reward hacking, we design a novel data sampling strategy and a multi-level reward system for Group Relative Policy Optimization (GRPO). Finally, we leverage MagicAssessor to construct MagicBench, an automated benchmark for evaluating the image artifacts of current T2I models. Our evaluation with MagicBench reveals that despite their widespread adoption, even top-tier models like GPT-image-1 are consistently plagued by significant artifacts, highlighting artifact reduction as a critical frontier for future T2I development. Project page: https://wj-inf.github.io/MagicMirror-page/.
- Abstract(参考訳): テキスト・ツー・イメージ (T2I) 生成は, 指示の追従と美学において顕著な進歩を遂げている。
しかし、永続的な課題は、解剖学的および構造的欠陥のような物理的アーティファクトの頻度であり、知覚的品質と限界の適用を著しく低下させる。
これらのアーティファクトの多様性と複雑さを考えると、現在のベンチマークに欠けている、体系的できめ細かい評価フレームワークが必要です。
このギャップを埋めるために、アーティファクトアセスメントの包括的なフレームワークであるMagicMirrorを紹介します。
まず、生成した画像アーティファクトの詳細な分類法を確立する。
この分類法でガイドされたMagicData340Kは、340K生成した画像の人手による大規模なデータセットで、きめ細かいアーティファクトラベルが付けられている。
このデータセットに基づいて、詳細な評価と対応するラベルを提供するVision-Language Model(VLM)であるMagicAssessorをトレーニングします。
集団相対政策最適化(GRPO)のための新しいデータサンプリング戦略とマルチレベル報酬システムの設計を行う。
最後に、MagicAssessorを活用して、現在のT2Iモデルのイメージアーティファクトを評価するための自動ベンチマークであるMagicBenchを構築します。
MagicBenchによる我々の評価は、広く採用されているにもかかわらず、GPT-image-1のような最上位モデルでさえ、常に重要なアーティファクトに悩まされており、将来的なT2I開発における重要なフロンティアとしてアーティファクトの削減が強調されていることを示している。
プロジェクトページ:https://wj-inf.github.io/MagicMirror-page/。
関連論文リスト
- FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark [62.2297310186354]
FLUX-Reason-6Mは600万の高品質FLUX生成画像と2000万のバイリンガル(英語と中国語)記述からなる巨大なデータセットである。
PRISM-Benchは、7つの異なるトラックを持つ新しい評価標準を提供する。
論文 参考訳(メタデータ) (2025-09-11T17:59:59Z) - Webly-Supervised Image Manipulation Localization via Category-Aware Auto-Annotation [49.83611963142304]
画像編集ツールを使って操作された画像は、視聴者を誤解させ、社会保障に重大なリスクをもたらす可能性がある。
この領域の主な障壁の1つは、データ取得の高コストと、高品質な注釈付きデータセットの深刻な欠如である。
我々は、Webから手動で鍛造された画像の大規模なコレクションと、自動生成されたアノテーションを利用する。
我々はMIMLv2を構築する。MIMLv2は大規模で多彩で高品質なデータセットで、246,212個の手動鍛造画像とピクセルレベルのマスクアノテーションを備えている。
論文 参考訳(メタデータ) (2025-08-28T16:44:40Z) - OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation [23.05106664412349]
テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトに整合した高品質な画像を生成する上で大きな注目を集めている。
OneIG-Benchは、T2Iモデルを複数の次元で評価するためのベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-06-09T17:50:21Z) - LEGION: Learning to Ground and Explain for Synthetic Image Detection [49.958951540410816]
提案するSynthScarsは,12,236個の完全合成画像からなる高品質で多様なデータセットである。
4つの異なる画像コンテンツタイプ、3つのアーティファクトカテゴリ、ピクセルレベルのセグメンテーション、詳細なテキスト説明、アーティファクトカテゴリラベルを含んでいる。
人工物の検出,分割,説明を統合するマルチモーダル大規模言語モデル(MLLM)に基づく画像偽造解析フレームワークであるLEGIONを提案する。
論文 参考訳(メタデータ) (2025-03-19T14:37:21Z) - EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation [29.176750442205325]
本研究では,EvalMuse-40Kベンチマークにコントリビュートし,画像テキストアライメントに関連するタスクに対して,微粒な人間のアノテーションを用いた40K画像テキストペアを収集する。
本稿では,T2Iモデルの画像テキストアライメント機能を評価するための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T04:08:25Z) - PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models [50.33699462106502]
テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。
現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。
メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
論文 参考訳(メタデータ) (2024-06-17T17:49:01Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。