論文の概要: ABHINAW: A method for Automatic Evaluation of Typography within AI-Generated Images
- arxiv url: http://arxiv.org/abs/2409.11874v1
- Date: Wed, 18 Sep 2024 11:04:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 18:09:15.038247
- Title: ABHINAW: A method for Automatic Evaluation of Typography within AI-Generated Images
- Title(参考訳): ABHINAW:AI生成画像におけるタイポグラフィの自動評価方法
- Authors: Abhinaw Jagtap, Nachiket Tapas, R. G. Brajesh,
- Abstract要約: 本稿では,AI生成画像中のテキストとタイポグラフィー生成の性能を明示的に定量化するために設計された新しい評価行列を提案する。
本手法では, 単語の繰り返し, ケース感度, 単語の混合, 文字の不規則な取り込みなど, 複数の冗長性に対処する。
- 参考スコア(独自算出の注目度): 0.44241702149260337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the fast-evolving field of Generative AI, platforms like MidJourney, DALL-E, and Stable Diffusion have transformed Text-to-Image (T2I) Generation. However, despite their impressive ability to create high-quality images, they often struggle to generate accurate text within these images. Theoretically, if we could achieve accurate text generation in AI images in a ``zero-shot'' manner, it would not only make AI-generated images more meaningful but also democratize the graphic design industry. The first step towards this goal is to create a robust scoring matrix for evaluating text accuracy in AI-generated images. Although there are existing bench-marking methods like CLIP SCORE and T2I-CompBench++, there's still a gap in systematically evaluating text and typography in AI-generated images, especially with diffusion-based methods. In this paper, we introduce a novel evaluation matrix designed explicitly for quantifying the performance of text and typography generation within AI-generated images. We have used letter by letter matching strategy to compute the exact matching scores from the reference text to the AI generated text. Our novel approach to calculate the score takes care of multiple redundancies such as repetition of words, case sensitivity, mixing of words, irregular incorporation of letters etc. Moreover, we have developed a Novel method named as brevity adjustment to handle excess text. In addition we have also done a quantitative analysis of frequent errors arise due to frequently used words and less frequently used words. Project page is available at: https://github.com/Abhinaw3906/ABHINAW-MATRIX.
- Abstract(参考訳): Generative AIの急速に進化する分野では、MidJourney、DALL-E、Stable Diffusionといったプラットフォームが、Text-to-Image(T2I)生成を変革している。
しかし、高品質な画像を作成するという印象的な能力にもかかわらず、これらの画像の中で正確なテキストを生成するのに苦労することが多い。
理論的には、AI画像の正確なテキスト生成を‘ゼロショット’で達成できれば、AI生成した画像をより意味のあるものにするだけでなく、グラフィックデザイン産業を民主化することが可能になるでしょう。
この目標に向けての最初のステップは、AI生成画像のテキスト精度を評価するための堅牢なスコアリングマトリックスを作ることである。
CLIP SCOREやT2I-CompBench++のような既存のベンチマーキング手法はあるが、AI生成画像のテキストとタイポグラフィーを体系的に評価する面ではまだギャップがある。
本稿では,AI生成画像中のテキストとタイポグラフィ生成の性能を明示的に定量化するための新しい評価行列を提案する。
我々は、レター・バイ・レター・マッチング・ストラテジーを用いて、参照テキストからAI生成テキストへの正確なマッチングスコアを計算した。
本手法では, 単語の繰り返し, ケース感度, 単語の混合, 文字の不規則な取り込みなど, 複数の冗長性に対処する。
さらに,余分なテキストを扱うための簡潔な調整法を開発した。
また、頻繁に使われる単語やあまり使われていない単語による頻繁な誤りを定量的に分析した。
プロジェクトページはhttps://github.com/Abhinaw3906/ABHINAW-MATRIX.comで公開されている。
関連論文リスト
- Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。
高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。
本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文 参考訳(メタデータ) (2024-11-08T17:07:01Z) - A Sanity Check for AI-generated Image Detection [49.08585395873425]
本稿では,AIによる画像検出の課題が解決されたかどうかの検査を行う。
既存の手法の一般化を定量化するために,Chameleonデータセット上で,既製のAI生成画像検出器を9つ評価した。
複数の専門家が同時に視覚的アーチファクトやノイズパターンを抽出するAI生成画像検出装置(AID)を提案する。
論文 参考訳(メタデータ) (2024-06-27T17:59:49Z) - GenAI-Bench: Evaluating and Improving Compositional Text-to-Visual Generation [103.3465421081531]
VQAScoreは、VQAモデルが画像がプロンプトを正確に描写しているとみなす可能性を測定するメトリクスである。
VQAScoreによるランク付けは、PickScore、HPSv2、ImageRewardなどの他のスコアリング方法よりも2倍から3倍効果的である。
我々は、同じプロンプトから生成されたランキング画像のスコアを評価するために、4万以上の人間格付けを備えたGenAI-Rankベンチマークを新たにリリースした。
論文 参考訳(メタデータ) (2024-06-19T18:00:07Z) - Evaluating Text-to-Visual Generation with Image-to-Text Generation [113.07368313330994]
VQAScore(VQAScore)は、アライメントスコアを生成するビジュアル・クエクション・アンサーリング(VQA)モデルである。
これは、多くの(8)画像テキストアライメントベンチマークで最先端の結果を生成する。
我々は1,600の合成テキストプロンプトを備えたより難しいベンチマークであるGenAI-Benchを紹介する。
論文 参考訳(メタデータ) (2024-04-01T17:58:06Z) - TIER: Text-Image Encoder-based Regression for AIGC Image Quality
Assessment [2.59079758388817]
AIGCIQAタスクでは、画像は通常、テキストプロンプトを使用して生成モデルによって生成される。
既存のAIGCIQAメソッドのほとんどは、個々の生成された画像から直接予測されたスコアを回帰する。
本稿では,テキスト画像エンコーダに基づく回帰(TIER)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-08T12:35:15Z) - Learning to Generate Semantic Layouts for Higher Text-Image
Correspondence in Text-to-Image Synthesis [37.32270579534541]
利用可能なセマンティックレイアウトを活用することで,テキスト画像の対応性を向上させる新しい手法を提案する。
提案手法は,Multi-Modal CelebA-HQおよびCityscapesデータセットにおける既存のテキスト・画像生成手法と比較して,高いテキスト・画像対応を実現する。
論文 参考訳(メタデータ) (2023-08-16T05:59:33Z) - TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation
with Question Answering [86.38098280689027]
視覚的質問応答(VQA)を用いたテキスト入力に生成した画像の忠実度を測定する自動評価指標を導入する。
そこで本研究では,12カテゴリにわたる4Kの多様なテキスト入力と25Kの質問(オブジェクト,カウントなど)からなるベンチマークを用いて,既存のテキスト・ツー・イメージ・モデルの包括的評価を行う。
論文 参考訳(メタデータ) (2023-03-21T14:41:02Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。