論文の概要: Early Accessibility: Automating Alt-Text Generation for UI Icons During App Development
- arxiv url: http://arxiv.org/abs/2504.13069v1
- Date: Thu, 17 Apr 2025 16:31:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:37:31.056431
- Title: Early Accessibility: Automating Alt-Text Generation for UI Icons During App Development
- Title(参考訳): アーリーアクセシビリティ: アプリ開発中のUIアイコンのAltテキスト生成を自動化する
- Authors: Sabrina Haque, Christoph Csallner,
- Abstract要約: Alt-textはモバイルアプリのアクセシビリティには不可欠だが、UIアイコンには意味のある記述がなく、スクリーンリーダーユーザーのアクセシビリティが制限されている。
既存のアプローチでは、広範なラベル付きデータセット、部分的なUIコンテキストとの闘い、開発後の運用、技術的負債の増加が必要になる。
まず、開発者がいつ、どのようにアイコンアルトテキストを生成するかを決定するためのフォーマティブな研究を行う。
次に,2つの微調整モデルを用いて,UIアイコンのalt-textを生成するALTICONアプローチについて検討する。
精度を向上させるため、DOMツリーから関連するUI情報を抽出し、OCRを介してIConテキストを検索し、構造化されたプロンプトを適用する。
- 参考スコア(独自算出の注目度): 2.8682942808330703
- License:
- Abstract: Alt-text is essential for mobile app accessibility, yet UI icons often lack meaningful descriptions, limiting accessibility for screen reader users. Existing approaches either require extensive labeled datasets, struggle with partial UI contexts, or operate post-development, increasing technical debt. We first conduct a formative study to determine when and how developers prefer to generate icon alt-text. We then explore the ALTICON approach for generating alt-text for UI icons during development using two fine-tuned models: a text-only large language model that processes extracted UI metadata and a multi-modal model that jointly analyzes icon images and textual context. To improve accuracy, the method extracts relevant UI information from the DOM tree, retrieves in-icon text via OCR, and applies structured prompts for alt-text generation. Our empirical evaluation with the most closely related deep-learning and vision-language models shows that ALTICON generates alt-text that is of higher quality while not requiring a full-screen input.
- Abstract(参考訳): Alt-textはモバイルアプリのアクセシビリティには不可欠だが、UIアイコンには意味のある記述がなく、スクリーンリーダーユーザーのアクセシビリティが制限されている。
既存のアプローチでは、広範なラベル付きデータセット、部分的なUIコンテキストとの闘い、開発後の運用、技術的負債の増加が必要になる。
まず、開発者がいつ、どのようにアイコンアルトテキストを生成するかを決定するためのフォーマティブな研究を行う。
次に、UIメタデータを抽出するテキストのみの大規模言語モデルと、アイコン画像とテキストコンテキストを共同で解析するマルチモーダルモデルという、2つの微調整されたモデルを用いて、開発中にUIアイコンのalt-textを生成するためのALTICONアプローチを検討する。
精度を向上させるため、DOMツリーから関連するUI情報を抽出し、OCRを介してIConテキストを検索し、アルトテキスト生成に構造化プロンプトを適用する。
最も密接な深層学習モデルと視覚言語モデルを用いた経験的評価は、ALTICONがフルスクリーン入力を必要とせず、高品質なアルトテキストを生成することを示す。
関連論文リスト
- AltGen: AI-Driven Alt Text Generation for Enhancing EPUB Accessibility [5.312946761836463]
本稿では,画像用アルトテキストの自動生成を目的とした,AI駆動型パイプラインAltGenを紹介する。
最先端の生成モデルを統合することで、AltGenは文脈的に関連があり、言語的に一貫性のあるアルトテキスト記述を実現する。
実験結果は、さまざまなデータセットにまたがるAltGenの有効性を示し、アクセシビリティエラーを97.5%削減した。
論文 参考訳(メタデータ) (2024-12-30T19:23:07Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - Inferring Alt-text For UI Icons With Large Language Models During App Development [2.8682942808330703]
そこで我々は,Large Language Models (LLMs) を用いて,部分的なUIデータを持つモバイルUIアイコンに対する情報的アルトテキストを自律的に生成する手法を提案する。
経験的評価とユーザスタディでは、IconDescは関連するalt-textの生成において大幅な改善を示す。
論文 参考訳(メタデータ) (2024-09-26T17:01:33Z) - Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。
Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。
新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文 参考訳(メタデータ) (2024-06-12T02:43:19Z) - Alt4Blind: A User Interface to Simplify Charts Alt-Text Creation [21.06366893637007]
グラフ画像の代替テキスト(Alt-Text)は、盲目や視覚障害のある人にグラフィックをアクセスできるようにするのに不可欠である。
最近のトレンドでは、Alt-Text生成にAIが使用されている。
セマンティックラベル付き高品質Alt-Textsを用いて,5,000個の実画像からなる新しいベンチマークを提案する。
我々は、同じ視覚的・テキスト的意味論を共有する類似のチャート画像のランク付けと検索を行う深層学習モデルを開発した。
論文 参考訳(メタデータ) (2024-05-29T14:19:57Z) - Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following [59.997857926808116]
画像にテキストのデコードとして意味パネルを導入する。
パネルは、入力テキストから解析された視覚概念をアレンジすることで得られる。
我々は,実用的なシステムを開発し,連続生成とチャットベースの編集の可能性を示す。
論文 参考訳(メタデータ) (2023-11-28T17:57:44Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。