論文の概要: Inferring Alt-text For UI Icons With Large Language Models During App Development
- arxiv url: http://arxiv.org/abs/2409.18060v2
- Date: Mon, 07 Oct 2024 19:04:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:28:45.494543
- Title: Inferring Alt-text For UI Icons With Large Language Models During App Development
- Title(参考訳): アプリ開発中に大きな言語モデルでAlt-text for UIアイコンを推測する
- Authors: Sabrina Haque, Christoph Csallner,
- Abstract要約: そこで我々は,Large Language Models (LLMs) を用いて,部分的なUIデータを持つモバイルUIアイコンに対する情報的アルトテキストを自律的に生成する手法を提案する。
経験的評価とユーザスタディでは、IconDescは関連するalt-textの生成において大幅な改善を示す。
- 参考スコア(独自算出の注目度): 2.8682942808330703
- License:
- Abstract: Ensuring accessibility in mobile applications remains a significant challenge, particularly for visually impaired users who rely on screen readers. User interface icons are essential for navigation and interaction and often lack meaningful alt-text, creating barriers to effective use. Traditional deep learning approaches for generating alt-text require extensive datasets and struggle with the diversity and imbalance of icon types. More recent Vision Language Models (VLMs) require complete UI screens, which can be impractical during the iterative phases of app development. To address these issues, we introduce a novel method using Large Language Models (LLMs) to autonomously generate informative alt-text for mobile UI icons with partial UI data. By incorporating icon context, that include class, resource ID, bounds, OCR-detected text, and contextual information from parent and sibling nodes, we fine-tune an off-the-shelf LLM on a small dataset of approximately 1.4k icons, yielding IconDesc. In an empirical evaluation and a user study IconDesc demonstrates significant improvements in generating relevant alt-text. This ability makes IconDesc an invaluable tool for developers, aiding in the rapid iteration and enhancement of UI accessibility.
- Abstract(参考訳): モバイルアプリケーションにおけるアクセシビリティの確保は、特に画面リーダーに依存している視覚障害者にとって、依然として大きな課題である。
ユーザインターフェースアイコンはナビゲーションとインタラクションに不可欠であり、意味のあるalt-textが欠如していることが多いため、効果的な使用の障壁が生じる。
アルトテキストを生成するための従来のディープラーニングアプローチは、広範なデータセットを必要とし、アイコンタイプの多様性と不均衡に苦労する。
最新のVision Language Models (VLM) には完全なUI画面が必要で、これはアプリ開発の反復的なフェーズにおいて実用的ではない。
これらの問題に対処するため,我々はLarge Language Models (LLMs) を用いて,部分的なUIデータを持つモバイルUIアイコンに対する情報的アルトテキストを自律的に生成する手法を提案する。
クラス、リソースID、バウンダリ、OCR検出されたテキスト、親と兄弟ノードからのコンテキスト情報を含むアイコンコンテキストを組み込むことで、約1.4kのアイコンからなる小さなデータセット上で、既製のLCMを微調整し、IconDescを生成する。
経験的評価とユーザスタディでは、IconDescは関連するalt-textの生成において大幅な改善を示す。
これにより、IconDescは開発者にとって貴重なツールとなり、迅速なイテレーションとUIアクセシビリティの向上を支援します。
関連論文リスト
- ClawMachine: Fetching Visual Tokens as An Entity for Referring and Grounding [67.63933036920012]
プロキシエンコーディングやジオメトリエンコーディングを含む既存のメソッドには、オブジェクトの位置をエンコードするための追加構文が含まれている。
この研究はClawMachineを紹介し、視覚トークンを直接使用してエンティティに通知する新しい方法論を提供する。
ClawMachineはビジュアル参照とグラウンドを自動回帰形式に統合し、デコーダのみのアーキテクチャで学習する。
論文 参考訳(メタデータ) (2024-06-17T08:39:16Z) - Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。
Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。
新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文 参考訳(メタデータ) (2024-06-12T02:43:19Z) - Alt4Blind: A User Interface to Simplify Charts Alt-Text Creation [21.06366893637007]
グラフ画像の代替テキスト(Alt-Text)は、盲目や視覚障害のある人にグラフィックをアクセスできるようにするのに不可欠である。
最近のトレンドでは、Alt-Text生成にAIが使用されている。
セマンティックラベル付き高品質Alt-Textsを用いて,5,000個の実画像からなる新しいベンチマークを提案する。
我々は、同じ視覚的・テキスト的意味論を共有する類似のチャート画像のランク付けと検索を行う深層学習モデルを開発した。
論文 参考訳(メタデータ) (2024-05-29T14:19:57Z) - ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。
そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。
GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine
Conversations [13.939350184164017]
VLM(Multimodal Vision-Language Models)は、画像と言語を融合した理解から強力なアプリケーションを可能にする。
既存のピクセルベース手法とLarge Language Model(LLM)を組み合わせることで、VLMのペアテキストイメージトレーニングデータを生成するためのレシピをUIドメインに適用する。
我々は、Q&A、UI記述、計画をカバーするUIと組み合わせた335Kの会話例のデータセットを生成し、UIタスクのための会話VLMを微調整するためにそれを使用します。
論文 参考訳(メタデータ) (2023-10-07T16:32:34Z) - Lexi: Self-Supervised Learning of the UI Language [26.798257611852712]
人間は、インストラクションマニュアルやハウツーガイドを読むことで、アプリケーションのユーザーインターフェイス(UI)を操作できることを学ぶことができる。
このデータを利用してUI画面とそのコンポーネントの汎用的な視覚言語表現を学ぶ方法について検討する。
テキストの豊かさやコンテキスト感度など,UI画面のユニークな特徴を扱うために設計された,事前学習された視覚と言語モデルであるLexiを提案する。
論文 参考訳(メタデータ) (2023-01-23T09:05:49Z) - Towards Better Semantic Understanding of Mobile Interfaces [7.756895821262432]
UI要素の機能の理解を深めることを目的とした,約500万のユニークなアノテーションを備えた,人間アノテーション付きデータセットをリリースしています。
このデータセットは、モバイルUIの大規模なデータセットであるRICOのイメージとビュー階層を拡張している。
また、画像のみの入力とマルチモーダル入力を用いたモデルもリリースし、様々なアーキテクチャを実験し、新しいデータセットでマルチモーダル入力を使用することの利点について検討する。
論文 参考訳(メタデータ) (2022-10-06T03:48:54Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - GenNI: Human-AI Collaboration for Data-Backed Text Generation [102.08127062293111]
Table2Textシステムは、機械学習を利用した構造化データに基づいてテキスト出力を生成する。
GenNI (Generation Negotiation Interface) は、対話型ビジュアルシステムである。
論文 参考訳(メタデータ) (2021-10-19T18:07:07Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。