論文の概要: FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark
- arxiv url: http://arxiv.org/abs/2509.09680v1
- Date: Thu, 11 Sep 2025 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.517746
- Title: FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark
- Title(参考訳): FLUX-Reason-6M & PRISM-Bench: 何百万ものテキストから画像への推論データセットと総合ベンチマーク
- Authors: Rongyao Fang, Aldrich Yu, Chengqi Duan, Linjiang Huang, Shuai Bai, Yuxuan Cai, Kun Wang, Si Liu, Xihui Liu, Hongsheng Li,
- Abstract要約: FLUX-Reason-6Mは600万の高品質FLUX生成画像と2000万のバイリンガル(英語と中国語)記述からなる巨大なデータセットである。
PRISM-Benchは、7つの異なるトラックを持つ新しい評価標準を提供する。
- 参考スコア(独自算出の注目度): 62.2297310186354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of open-source text-to-image (T2I) models has been hindered by the absence of large-scale, reasoning-focused datasets and comprehensive evaluation benchmarks, resulting in a performance gap compared to leading closed-source systems. To address this challenge, We introduce FLUX-Reason-6M and PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark). FLUX-Reason-6M is a massive dataset consisting of 6 million high-quality FLUX-generated images and 20 million bilingual (English and Chinese) descriptions specifically designed to teach complex reasoning. The image are organized according to six key characteristics: Imagination, Entity, Text rendering, Style, Affection, and Composition, and design explicit Generation Chain-of-Thought (GCoT) to provide detailed breakdowns of image generation steps. The whole data curation takes 15,000 A100 GPU days, providing the community with a resource previously unattainable outside of large industrial labs. PRISM-Bench offers a novel evaluation standard with seven distinct tracks, including a formidable Long Text challenge using GCoT. Through carefully designed prompts, it utilizes advanced vision-language models for nuanced human-aligned assessment of prompt-image alignment and image aesthetics. Our extensive evaluation of 19 leading models on PRISM-Bench reveals critical performance gaps and highlights specific areas requiring improvement. Our dataset, benchmark, and evaluation code are released to catalyze the next wave of reasoning-oriented T2I generation. Project page: https://flux-reason-6m.github.io/ .
- Abstract(参考訳): オープンソーステキスト・トゥ・イメージ(T2I)モデルの進歩は、大規模で推論にフォーカスしたデータセットと包括的な評価ベンチマークが欠如していることによって妨げられ、主要なクローズドソースシステムと比較してパフォーマンスのギャップが生じた。
FLUX-Reason-6M と PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark) を導入する。
FLUX-Reason-6Mは600万の高品質なFLUX生成画像と、複雑な推論を教えるために特別に設計された2000万のバイリンガル(英語と中国語)記述からなる巨大なデータセットである。
画像はImagination, Entity, Text rendering, Style, Affection, and compositionの6つの重要な特徴に基づいて整理される。
データキュレーション全体は15,000のA100 GPU日を要する。
PRISM-Benchは、7つの異なるトラックを持つ新しい評価標準を提供する。
慎重に設計されたプロンプトを通して、高度な視覚言語モデルを用いて、アクシデント・イメージアライメントと画像美学の微妙なヒトアライメント評価を行う。
PRISM-Benchにおける19の先行モデルの広範な評価は、重要な性能ギャップを明らかにし、改善を必要とする特定の領域を強調している。
我々のデータセット、ベンチマーク、評価コードは、推論指向T2I生成の次の波を触媒するためにリリースされます。
プロジェクトページ: https://flux-reason-6m.github.io/
関連論文リスト
- Interleaving Reasoning for Better Text-to-Image Generation [83.69082794730664]
テキストベース思考と画像合成を交互に行うIRG(Interleaving Reasoning Generation)を提案する。
IRGを効果的に訓練するために,2つのサブゴールをターゲットにしたIRGL(Interleaving Reasoning Generation Learning)を提案する。
実験の結果、SoTAの性能はGenEval, WISE, TIIF, GenAI-Bench, OneIG-ENで5~10ポイント向上した。
論文 参考訳(メタデータ) (2025-09-08T17:56:23Z) - OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation [23.05106664412349]
テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトに整合した高品質な画像を生成する上で大きな注目を集めている。
OneIG-Benchは、T2Iモデルを複数の次元で評価するためのベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-06-09T17:50:21Z) - FLIP Reasoning Challenge [20.706469085872516]
本稿では,人間の検証タスクに基づいてAI推論能力を評価するためのベンチマークであるFLIPデータセットを紹介する。
FLIPの課題は、4つのイメージの2つの順序をユーザに提供することだ。
我々の実験は、視覚言語モデル(VLM)と大規模言語モデル(LLM)の両方を活用して、最先端のモデルを評価する。
論文 参考訳(メタデータ) (2025-04-16T17:07:16Z) - Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis [56.00885545573299]
高品質なテキスト画像合成のための総合的なスイートであるLeX-Artを紹介する。
当社のアプローチは,Deepseek-R1に基づく高品質なデータ合成パイプラインの構築という,データ中心のパラダイムに従っています。
我々は、堅牢なプロンプトエンリッチメントモデルであるLeX-Enhancerを開発し、LeX-FLUXとLeX-Luminaの2つのテキスト・ツー・イメージモデルを訓練する。
論文 参考訳(メタデータ) (2025-03-27T17:56:15Z) - TextSquare: Scaling up Text-Centric Visual Instruction Tuning [62.878378882175284]
大規模かつ高品質な命令チューニングデータセットSquare-10Mを作成するための新しいアプローチを提案する。
われわれのモデルであるTextSquareは、最先端のText中心のMLLMをはるかに上回っている。
さらに、GPT4VやGeminiといったトップクラスのモデルでは、テキスト中心のベンチマークを10つ中6つで上回っている。
論文 参考訳(メタデータ) (2024-04-19T11:38:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。