論文の概要: Alt4Blind: A User Interface to Simplify Charts Alt-Text Creation
- arxiv url: http://arxiv.org/abs/2405.19111v1
- Date: Wed, 29 May 2024 14:19:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 16:51:10.495408
- Title: Alt4Blind: A User Interface to Simplify Charts Alt-Text Creation
- Title(参考訳): Alt4Blind:Altテキスト作成を簡単にするためのユーザインターフェース
- Authors: Omar Moured, Shahid Ali Farooqui, Karin Muller, Sharifeh Fadaeijouybari, Thorsten Schwarz, Mohammed Javed, Rainer Stiefelhagen,
- Abstract要約: グラフ画像の代替テキスト(Alt-Text)は、盲目や視覚障害のある人にグラフィックをアクセスできるようにするのに不可欠である。
最近のトレンドでは、Alt-Text生成にAIが使用されている。
セマンティックラベル付き高品質Alt-Textsを用いて,5,000個の実画像からなる新しいベンチマークを提案する。
我々は、同じ視覚的・テキスト的意味論を共有する類似のチャート画像のランク付けと検索を行う深層学習モデルを開発した。
- 参考スコア(独自算出の注目度): 21.06366893637007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alternative Texts (Alt-Text) for chart images are essential for making graphics accessible to people with blindness and visual impairments. Traditionally, Alt-Text is manually written by authors but often encounters issues such as oversimplification or complication. Recent trends have seen the use of AI for Alt-Text generation. However, existing models are susceptible to producing inaccurate or misleading information. We address this challenge by retrieving high-quality alt-texts from similar chart images, serving as a reference for the user when creating alt-texts. Our three contributions are as follows: (1) we introduce a new benchmark comprising 5,000 real images with semantically labeled high-quality Alt-Texts, collected from Human Computer Interaction venues. (2) We developed a deep learning-based model to rank and retrieve similar chart images that share the same visual and textual semantics. (3) We designed a user interface (UI) to facilitate the alt-text creation process. Our preliminary interviews and investigations highlight the usability of our UI. For the dataset and further details, please refer to our project page: https://moured.github.io/alt4blind/.
- Abstract(参考訳): グラフ画像の代替テキスト(Alt-Text)は、盲目や視覚障害のある人にグラフィックをアクセスできるようにするのに不可欠である。
伝統的に、Alt-Textは手書きで書かれているが、過度に単純化や複雑化といった問題に遭遇することが多い。
最近のトレンドでは、Alt-Text生成にAIが使用されている。
しかし、既存のモデルは不正確な情報や誤解を招く可能性がある。
この課題に対処するために、類似のチャート画像から高品質なalt-textを検索し、alt-textを作成する際にユーザへの参照として機能する。
1)人間のコンピュータインタラクションの会場から収集した,意味的にラベル付けされた高品質なAlt-Textを用いた5000個の実画像からなる新しいベンチマークを導入する。
2)同じ視覚とテキストのセマンティクスを共有する類似のチャート画像のランク付けと検索を行う深層学習モデルを開発した。
(3) アルトテキスト作成プロセスを容易にするユーザインタフェース(UI)を設計した。
予備インタビューや調査では、UIのユーザビリティを強調しています。
データセットと詳細については、プロジェクトのページを参照してください。
関連論文リスト
- Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。
Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。
新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文 参考訳(メタデータ) (2024-06-12T02:43:19Z) - Evaluating Text-to-Visual Generation with Image-to-Text Generation [113.07368313330994]
VQAScore(VQAScore)は、アライメントスコアを生成するビジュアル・クエクション・アンサーリング(VQA)モデルである。
これは、多くの(8)画像テキストアライメントベンチマークで最先端の結果を生成する。
我々は1,600の合成テキストプロンプトを備えたより難しいベンチマークであるGenAI-Benchを紹介する。
論文 参考訳(メタデータ) (2024-04-01T17:58:06Z) - Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following [59.997857926808116]
画像にテキストのデコードとして意味パネルを導入する。
パネルは、入力テキストから解析された視覚概念をアレンジすることで得られる。
我々は,実用的なシステムを開発し,連続生成とチャットベースの編集の可能性を示す。
論文 参考訳(メタデータ) (2023-11-28T17:57:44Z) - AnyText: Multilingual Visual Text Generation And Editing [18.811943975513483]
拡散型多言語視覚テキスト生成・編集モデルであるAnyTextを紹介する。
AnyTextは複数の言語で文字を書くことができます。
我々は、OCRアノテーションと300万の画像テキストペアを複数言語で含む、最初の大規模多言語テキスト画像データセットであるAnyWord-3Mをコントリビュートする。
論文 参考訳(メタデータ) (2023-11-06T12:10:43Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Alt-Text with Context: Improving Accessibility for Images on Twitter [30.28576644504692]
本稿では,ソーシャルメディア,特にTwitterで共有された画像のアルトテキスト記述を生成するアプローチを提案する。
Twitterに投稿された画像には、便利なコンテキストを提供するユーザ記述のテキストが添付されることが多い。
従来の作業では, BLEU@4で2倍以上に向上し, ツイートテキストと視覚情報の両方の条件付けのアプローチが著しく優れていた。
論文 参考訳(メタデータ) (2023-05-24T06:35:26Z) - TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation
with Question Answering [86.38098280689027]
視覚的質問応答(VQA)を用いたテキスト入力に生成した画像の忠実度を測定する自動評価指標を導入する。
そこで本研究では,12カテゴリにわたる4Kの多様なテキスト入力と25Kの質問(オブジェクト,カウントなど)からなるベンチマークを用いて,既存のテキスト・ツー・イメージ・モデルの包括的評価を行う。
論文 参考訳(メタデータ) (2023-03-21T14:41:02Z) - Look, Read and Ask: Learning to Ask Questions by Reading Text in Images [3.3972119795940525]
テキストベースの視覚的質問生成(TextVQG)の新たな問題を提案する。
テキストVQGに対処するために,OCR で一貫した視覚的質問生成モデルを提案する。
論文 参考訳(メタデータ) (2022-11-23T13:52:46Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - Winner Team Mia at TextVQA Challenge 2021: Vision-and-Language
Representation Learning with Pre-trained Sequence-to-Sequence Model [18.848107244522666]
TextVQAは、画像中のテキストを読み、推論して、それらに関する質問に答えるモデルを必要とする。
この課題では、TextVQAタスクに生成モデルT5を使用します。
論文 参考訳(メタデータ) (2021-06-24T06:39:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。