論文の概要: Images Speak Volumes: User-Centric Assessment of Image Generation for Accessible Communication
- arxiv url: http://arxiv.org/abs/2410.03430v1
- Date: Fri, 4 Oct 2024 13:40:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 22:29:14.866774
- Title: Images Speak Volumes: User-Centric Assessment of Image Generation for Accessible Communication
- Title(参考訳): Image Speak Volumes: アクセシブルコミュニケーションのための画像生成のユーザ中心評価
- Authors: Miriam Anschütz, Tringa Sylaj, Georg Groh,
- Abstract要約: 本稿では,画像のカスタマイズを迅速かつ容易に行うことにより,テキスト・画像生成モデルがギャップを埋めるかどうかを検討する。
我々は、7、4つのオープンソース、3つのクローズドソース画像生成モデルをベンチマークし、その結果の画像を広範囲に評価した。
いくつかのモデルは優れた性能を示すが、人間の監督なしに大規模に使用する準備ができていない。
- 参考スコア(独自算出の注目度): 2.6217304977339473
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Explanatory images play a pivotal role in accessible and easy-to-read (E2R) texts. However, the images available in online databases are not tailored toward the respective texts, and the creation of customized images is expensive. In this large-scale study, we investigated whether text-to-image generation models can close this gap by providing customizable images quickly and easily. We benchmarked seven, four open- and three closed-source, image generation models and provide an extensive evaluation of the resulting images. In addition, we performed a user study with people from the E2R target group to examine whether the images met their requirements. We find that some of the models show remarkable performance, but none of the models are ready to be used at a larger scale without human supervision. Our research is an important step toward facilitating the creation of accessible information for E2R creators and tailoring accessible images to the target group's needs.
- Abstract(参考訳): 説明画像は、アクセシブルで読みやすい(E2R)テキストにおいて重要な役割を果たす。
しかし、オンラインデータベースで利用可能な画像はそれぞれのテキストに合わせて調整されておらず、カスタマイズされた画像の作成は高価である。
本研究では,手軽にカスタマイズ可能な画像を提供することで,テキスト・画像生成モデルがこのギャップを埋めることができるかを検討した。
我々は、7、4つのオープンソース、3つのクローズドソース画像生成モデルをベンチマークし、その結果の画像を広範囲に評価した。
また,E2Rターゲットグループの人々とユーザスタディを行い,画像が要件を満たしているかどうかを検討した。
いくつかのモデルは優れた性能を示すが、人間の監督なしに大規模に使用する準備ができていない。
我々の研究は、E2Rクリエーターにとってアクセス可能な情報の作成を容易にし、ターゲットグループのニーズに合わせてアクセス可能なイメージを調整するための重要なステップである。
関連論文リスト
- Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Refining Text-to-Image Generation: Towards Accurate Training-Free Glyph-Enhanced Image Generation [5.55027585813848]
視覚テキストを生成する能力は重要であり、学術的関心と幅広い実践的応用の両方を提供する。
我々はLenCom-Evalというベンチマークを導入し、Lengthy と Complex Visual Text を用いて画像を生成するモデルの性能をテストする。
ここでは,CLIPSスコア,OCR精度,リコール,F1スコア,精度,距離スコアの編集など,様々な評価指標に対する顕著な改善点を示す。
論文 参考訳(メタデータ) (2024-03-25T04:54:49Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Let's Go Shopping (LGS) -- Web-Scale Image-Text Dataset for Visual
Concept Understanding [36.01657852250117]
Let's Go Shoppingデータセットは、パブリックなEコマースWebサイトから1500万のイメージキャプチャペアを備えた、大規模なパブリックデータセットである。
実験の結果,既存のベンチマークデータセットでトレーニングされた分類器は,電子商取引データに容易に一般化できないことがわかった。
LGSは、画像キャプチャーモデルにより、よりリッチなキャプションを生成することができ、テキスト・ツー・イメージ生成モデルがEコマーススタイルの転送を実現するのに役立つ。
論文 参考訳(メタデータ) (2024-01-09T14:24:29Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Implementing and Experimenting with Diffusion Models for Text-to-Image
Generation [0.0]
DALL-E 2 と Imagen という2つのモデルでは、画像の単純なテキスト記述から高画質の画像を生成できることが示されている。
テキスト・ツー・イメージのモデルは、トレーニングに必要な膨大な計算リソースと、インターネットから収集された巨大なデータセットを扱う必要がある。
この論文は、これらのモデルが使用するさまざまなアプローチとテクニックをレビューし、それから、テキスト・ツー・イメージ・モデルの独自の実装を提案することで貢献する。
論文 参考訳(メタデータ) (2022-09-22T12:03:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。