Fugu-MT 論文翻訳(概要): TextAtlas5M: A Large-scale Dataset for Dense Text Image Generation

論文の概要: TextAtlas5M: A Large-scale Dataset for Dense Text Image Generation

arxiv url: http://arxiv.org/abs/2502.07870v1
Date: Tue, 11 Feb 2025 18:59:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-13 18:10:00.741158
Title: TextAtlas5M: A Large-scale Dataset for Dense Text Image Generation
Title（参考訳）: TextAtlas5M:高密度テキスト画像生成のための大規模データセット
Authors: Alex Jinpeng Wang, Dongxing Mao, Jiawei Zhang, Weiming Han, Zhuobai Dong, Linjie Li, Yiqi Lin, Zhengyuan Yang, Libo Qin, Fuwei Zhang, Lijuan Wang, Min Li,
Abstract要約: テキスト条件付き画像生成における長文レンダリングの評価を目的とした,新しいデータセットであるTextAtlas5Mを紹介する。私たちのデータセットは、500万の長文生成と、さまざまなデータタイプにわたる画像の収集で構成されています。さらに、3つのデータドメインにまたがる3000の人間改良テストセットTextAtlasEvalをキュレートし、テキスト条件生成のための最も広範なベンチマークの1つを確立します。
参考スコア（独自算出の注目度）: 67.45160043297193
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-conditioned image generation has gained significant attention in recent years and are processing increasingly longer and comprehensive text prompt. In everyday life, dense and intricate text appears in contexts like advertisements, infographics, and signage, where the integration of both text and visuals is essential for conveying complex information. However, despite these advances, the generation of images containing long-form text remains a persistent challenge, largely due to the limitations of existing datasets, which often focus on shorter and simpler text. To address this gap, we introduce TextAtlas5M, a novel dataset specifically designed to evaluate long-text rendering in text-conditioned image generation. Our dataset consists of 5 million long-text generated and collected images across diverse data types, enabling comprehensive evaluation of large-scale generative models on long-text image generation. We further curate 3000 human-improved test set TextAtlasEval across 3 data domains, establishing one of the most extensive benchmarks for text-conditioned generation. Evaluations suggest that the TextAtlasEval benchmarks present significant challenges even for the most advanced proprietary models (e.g. GPT4o with DallE-3), while their open-source counterparts show an even larger performance gap. These evidences position TextAtlas5M as a valuable dataset for training and evaluating future-generation text-conditioned image generation models.
Abstract（参考訳）: 近年,テキストコンディショニングによる画像生成が注目され,より長く包括的なテキストプロンプトが処理されている。日常生活において、複雑で複雑なテキストは、複雑な情報を伝えるためにテキストと視覚の統合が不可欠である広告、インフォグラフィック、看板などの文脈に現れる。しかし、これらの進歩にもかかわらず、長文を含む画像の生成は、多くの場合、より短くより単純なテキストにフォーカスする既存のデータセットの制限のために、引き続き永続的な課題である。このギャップに対処するために,テキストコンディショニング画像生成における長文レンダリングの評価に特化して設計された新しいデータセットであるTextAtlas5Mを導入する。我々のデータセットは500万の長文生成および収集された画像からなり、長文画像生成における大規模生成モデルの包括的評価を可能にした。さらに、3つのデータドメインにまたがる3000の人間改良テストセットTextAtlasEvalをキュレートし、テキスト条件生成のための最も広範なベンチマークの1つを確立します。 TextAtlasEvalベンチマークは、最も先進的なプロプライエタリモデル(例:GPT4o with DallE-3)においても大きな課題を呈している。これらの証拠は、TextAtlas5Mを将来のテキスト条件画像生成モデルのトレーニングと評価のための貴重なデータセットとして位置づけている。

関連論文リスト

Aesthetics is Cheap, Show me the Text: An Empirical Evaluation of State-of-the-Art Generative Models for OCR [24.027154975869024]
我々は,テキスト画像の生成と編集の観点から,最先端の生成モデルの能力を評価する。我々は、33の代表的なタスクを選択し、それらを文書、手書きテキスト、シーンテキスト、芸術テキスト、複雑でレイアウトに富んだテキストの5つのカテゴリに分類する。包括的評価のために,クローズド・ソース領域とオープンソース領域の2つの領域にまたがる6つのモデルについて,画像入力とプロンプトを用いて検討した。
論文参考訳（メタデータ） (2025-07-20T18:43:09Z)
Beyond Words: Advancing Long-Text Image Generation via Multimodal Autoregressive Models [76.68654868991517]
スライドや文書の段落などの画像中の長文は、現在の生成モデルにとって大きな課題である。詳細なシーンテキストの特徴をキャプチャするために最適化された新しいテキスト中心のバイナリトークンーを導入します。モデルNameは,高画質の長文画像を前例のない忠実度で生成するマルチモーダル自己回帰モデルである。
論文参考訳（メタデータ） (2025-03-26T03:44:25Z)
TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark [61.412934963260724]
既存の拡散ベースのテキスト・ツー・イメージモデルは、しばしば画像に正確にテキストを埋め込むのに苦労する。本研究では,画像に視覚テキストを統合する拡散モデルの有効性を評価するために,大規模で,かつ,迅速な複雑性駆動型ベンチマークであるTextInVisionを紹介する。
論文参考訳（メタデータ） (2025-03-17T21:36:31Z)
Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文参考訳（メタデータ） (2024-07-19T09:08:20Z)
CustomText: Customized Textual Image Generation using Diffusion Models [13.239661107392324]
テキスト画像生成は、広告、教育、製品パッケージング、ソーシャルメディア、情報視覚化、ブランディングといった様々な分野にまたがる。拡散モデルを用いた言語誘導画像合成における最近の進歩にもかかわらず、現在のモデルは画像生成に優れ、正確なテキストレンダリングに苦慮し、フォント属性の限定的な制御を提供する。本稿では,高精度なテキストカスタマイズによる高品質な画像合成の実現を目標とし,画像生成モデルの進歩に寄与する。
論文参考訳（メタデータ） (2024-05-21T06:43:03Z)
Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文参考訳（メタデータ） (2023-11-24T05:17:01Z)
AnyText: Multilingual Visual Text Generation And Editing [18.811943975513483]
拡散型多言語視覚テキスト生成・編集モデルであるAnyTextを紹介する。 AnyTextは複数の言語で文字を書くことができます。我々は、OCRアノテーションと300万の画像テキストペアを複数言語で含む、最初の大規模多言語テキスト画像データセットであるAnyWord-3Mをコントリビュートする。
論文参考訳（メタデータ） (2023-11-06T12:10:43Z)
TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文参考訳（メタデータ） (2023-05-18T10:16:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。