論文の概要: Constantly Improving Image Models Need Constantly Improving Benchmarks
- arxiv url: http://arxiv.org/abs/2510.15021v1
- Date: Thu, 16 Oct 2025 17:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.329356
- Title: Constantly Improving Image Models Need Constantly Improving Benchmarks
- Title(参考訳): ベンチマークを常に改善する必要がある画像モデルの改善
- Authors: Jiaxin Ge, Grace Luo, Heekyung Lee, Nishant Malpani, Long Lian, XuDong Wang, Aleksander Holynski, Trevor Darrell, Sewon Min, David M. Chan,
- Abstract要約: 本稿では,実際のモデル利用の証拠から直接ベンチマークを構築するためのフレームワークECHOを提案する。
GPT-4o Image Genにこのフレームワークを適用し,ソーシャルメディア投稿から収集した31,000以上のプロンプトのデータセットを構築した。
- 参考スコア(独自算出の注目度): 109.39018167487103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in image generation, often driven by proprietary systems like GPT-4o Image Gen, regularly introduce new capabilities that reshape how users interact with these models. Existing benchmarks often lag behind and fail to capture these emerging use cases, leaving a gap between community perceptions of progress and formal evaluation. To address this, we present ECHO, a framework for constructing benchmarks directly from real-world evidence of model use: social media posts that showcase novel prompts and qualitative user judgments. Applying this framework to GPT-4o Image Gen, we construct a dataset of over 31,000 prompts curated from such posts. Our analysis shows that ECHO (1) discovers creative and complex tasks absent from existing benchmarks, such as re-rendering product labels across languages or generating receipts with specified totals, (2) more clearly distinguishes state-of-the-art models from alternatives, and (3) surfaces community feedback that we use to inform the design of metrics for model quality (e.g., measuring observed shifts in color, identity, and structure). Our website is at https://echo-bench.github.io.
- Abstract(参考訳): GPT-4o Image Genのようなプロプライエタリなシステムによって駆動される画像生成の最近の進歩は、ユーザーがこれらのモデルとどのように相互作用するかを再現する新しい機能を定期的に導入している。
既存のベンチマークは、しばしば遅れて、これらの新興ユースケースを捉えず、コミュニティの進歩に対する認識と正式な評価のギャップを残しています。
そこで本研究では,新たなプロンプトと定性的なユーザ判断を示すソーシャルメディア投稿という,実世界のモデル使用の証拠から直接ベンチマークを構築するためのフレームワークECHOを提案する。
GPT-4o Image Genにこのフレームワークを適用することで、そのような投稿からキュレートされた31,000以上のプロンプトのデータセットを構築する。
分析の結果、ECHO(1)は、言語間で製品ラベルを再レンダリングしたり、特定の総数でレシートを生成したりするなど、既存のベンチマークから欠落した創造的で複雑なタスクを発見し、(2)最先端のモデルを代替品と明確に区別し、(3)モデル品質の指標(例えば、色、アイデンティティ、構造の変化を計測する)の設計に使用するコミュニティのフィードバックを表面化することがわかった。
私たちのウェブサイトはhttps://echo-bench.github.ioにあります。
関連論文リスト
- OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation [23.05106664412349]
テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトに整合した高品質な画像を生成する上で大きな注目を集めている。
OneIG-Benchは、T2Iモデルを複数の次元で評価するためのベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-06-09T17:50:21Z) - ICE-Bench: A Unified and Comprehensive Benchmark for Image Creating and Editing [23.512687688393346]
ICE-Benchは、画像生成モデルを厳格に評価するために設計された包括的なベンチマークである。
評価フレームワークは、6次元にわたる画像生成能力を評価する。
既存の世代モデルを徹底的に分析し、ベンチマークの難易度と現在のモデル能力と実世界の世代要件のギャップを明らかにする。
論文 参考訳(メタデータ) (2025-03-18T17:53:29Z) - Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
KITTENはKnowledge-InTensiveイメージジェネラティオンのベンチマークである。
我々は最新のテキスト・画像モデルと検索強化モデルについて体系的な研究を行う。
分析によると、高度なテキスト・ツー・イメージモデルでさえ、エンティティの正確な視覚的詳細を生成できない。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。
我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。
本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-17T17:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。