Fugu-MT 論文翻訳(概要): TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark

論文の概要: TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark

arxiv url: http://arxiv.org/abs/2503.13730v1
Date: Mon, 17 Mar 2025 21:36:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-19 16:29:12.058792
Title: TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark
Title（参考訳）: TextInVision: テキストとプロンプトの複雑さ駆動型ビジュアルテキスト生成ベンチマーク
Authors: Forouzan Fallah, Maitreya Patel, Agneet Chatterjee, Vlad I. Morariu, Chitta Baral, Yezhou Yang,
Abstract要約: 既存の拡散ベースのテキスト・ツー・イメージモデルは、しばしば画像に正確にテキストを埋め込むのに苦労する。本研究では,画像に視覚テキストを統合する拡散モデルの有効性を評価するために,大規模で,かつ,迅速な複雑性駆動型ベンチマークであるTextInVisionを紹介する。
参考スコア（独自算出の注目度）: 61.412934963260724
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Generating images with embedded text is crucial for the automatic production of visual and multimodal documents, such as educational materials and advertisements. However, existing diffusion-based text-to-image models often struggle to accurately embed text within images, facing challenges in spelling accuracy, contextual relevance, and visual coherence. Evaluating the ability of such models to embed text within a generated image is complicated due to the lack of comprehensive benchmarks. In this work, we introduce TextInVision, a large-scale, text and prompt complexity driven benchmark designed to evaluate the ability of diffusion models to effectively integrate visual text into images. We crafted a diverse set of prompts and texts that consider various attributes and text characteristics. Additionally, we prepared an image dataset to test Variational Autoencoder (VAE) models across different character representations, highlighting that VAE architectures can also pose challenges in text generation within diffusion frameworks. Through extensive analysis of multiple models, we identify common errors and highlight issues such as spelling inaccuracies and contextual mismatches. By pinpointing the failure points across different prompts and texts, our research lays the foundation for future advancements in AI-generated multimodal content.
Abstract（参考訳）: 組込みテキストによる画像生成は、教育資料や広告などの視覚・マルチモーダル文書の自動作成に不可欠である。しかし、既存の拡散ベースのテキスト・ツー・イメージモデルは、スペルの精度、文脈的関連性、視覚的コヒーレンスといった課題に直面し、画像にテキストを正確に埋め込むのに苦労することが多い。このようなモデルが生成した画像にテキストを埋め込む能力を評価するのは、包括的なベンチマークが欠如しているため複雑である。本研究では,画像に視覚テキストを効果的に統合する拡散モデルの有効性を評価するために,大規模で,テキストと,迅速な複雑性駆動型ベンチマークであるTextInVisionを紹介する。さまざまな属性やテキストの特徴を考慮した多様なプロンプトとテキストのセットを作成しました。さらに,可変オートエンコーダ(VAE)モデルをさまざまな文字表現にわたってテストするための画像データセットを用意し,VAEアーキテクチャが拡散フレームワーク内でのテキスト生成にも課題を生じさせることを示した。複数のモデルの広範な解析を通じて、一般的な誤りを特定し、スペルの不正確さや文脈ミスマッチなどの問題を強調する。異なるプロンプトやテキストに障害点をピンポイントすることで、我々の研究はAIが生成するマルチモーダルコンテンツの今後の進歩の基盤となる。

関連論文リスト

EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models [31.31018600797305]
本稿では,テキストから画像への拡散モデルに対するsysと呼ばれるプロンプトインバージョン手法を提案する。本手法は,画像の類似性,テキストのアライメント,解釈可能性,一般化可能性の観点から,既存の手法よりも優れる。
論文参考訳（メタデータ） (2025-06-03T16:44:15Z)
Visual Text Processing: A Comprehensive Review and Unified Evaluation [99.57846940547171]
視覚テキスト処理における最近の進歩を包括的・多視点的に分析する。本研究の目的は,視覚テキスト処理のダイナミックな分野における今後の探索と革新を促進する基礎資源として,本研究を確立することである。
論文参考訳（メタデータ） (2025-04-30T14:19:29Z)
TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes [30.947323186487885]
複雑なビジュアルテキスト生成(CVTG)は、視覚画像内の様々な領域に分散した複雑なテキストコンテンツを生成することに焦点を当てている。 InGでは、画像生成モデルはしばしば歪んだ、ぼやけたビジュアルテキストをレンダリングするか、あるいは視覚的なテキストを欠いている。我々は,新しいマルチビジュアルテキストレンダリング手法であるTextCrafterを提案する。
論文参考訳（メタデータ） (2025-03-30T14:36:55Z)
Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。 DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-05-30T07:25:23Z)
FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。 FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。 FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文参考訳（メタデータ） (2024-04-23T03:42:14Z)
Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文参考訳（メタデータ） (2023-11-28T06:51:28Z)
Towards Improving Document Understanding: An Exploration on Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-11-22T06:46:37Z)
Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking [0.5242869847419834]
情報エントロピーを低減するために動的ビジュアルセマンティックサブエンベッドディングフレームワーク(DVSE)を提案する。生成した候補埋め込みに様々な意味的変動を捉えるよう促すため,混合分布を構築した。 3つのベンチマークデータセット上の4つの画像特徴エンコーダと2つのテキスト特徴エンコーダを用いて,既存のセットベース手法と比較した。
論文参考訳（メタデータ） (2023-09-15T04:39:11Z)
Learning the Visualness of Text Using Large Vision-Language Models [42.75864384249245]
視覚的テキストは人の心の中のイメージを誘発するが、視覚的でないテキストはそれを起こさない。テキスト内の視覚を自動的に検出する手法により、テキスト・ツー・イメージ検索と生成モデルにより、関連する画像でテキストを拡張できる。我々は,3,620の英語文のデータセットと,複数のアノテータによって提供されるその視覚性スコアをキュレートする。
論文参考訳（メタデータ） (2023-05-11T17:45:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。