Fugu-MT 論文翻訳(概要): Inferring Alt-text For UI Icons With Large Language Models During App Development

論文の概要: Inferring Alt-text For UI Icons With Large Language Models During App Development

arxiv url: http://arxiv.org/abs/2409.18060v2
Date: Mon, 7 Oct 2024 19:04:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 15:51:02.766391
Title: Inferring Alt-text For UI Icons With Large Language Models During App Development
Title（参考訳）: アプリ開発中に大きな言語モデルでAlt-text for UIアイコンを推測する
Authors: Sabrina Haque, Christoph Csallner,
Abstract要約: そこで我々は,Large Language Models (LLMs) を用いて,部分的なUIデータを持つモバイルUIアイコンに対する情報的アルトテキストを自律的に生成する手法を提案する。経験的評価とユーザスタディでは、IconDescは関連するalt-textの生成において大幅な改善を示す。
参考スコア（独自算出の注目度）: 2.8682942808330703
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Ensuring accessibility in mobile applications remains a significant challenge, particularly for visually impaired users who rely on screen readers. User interface icons are essential for navigation and interaction and often lack meaningful alt-text, creating barriers to effective use. Traditional deep learning approaches for generating alt-text require extensive datasets and struggle with the diversity and imbalance of icon types. More recent Vision Language Models (VLMs) require complete UI screens, which can be impractical during the iterative phases of app development. To address these issues, we introduce a novel method using Large Language Models (LLMs) to autonomously generate informative alt-text for mobile UI icons with partial UI data. By incorporating icon context, that include class, resource ID, bounds, OCR-detected text, and contextual information from parent and sibling nodes, we fine-tune an off-the-shelf LLM on a small dataset of approximately 1.4k icons, yielding IconDesc. In an empirical evaluation and a user study IconDesc demonstrates significant improvements in generating relevant alt-text. This ability makes IconDesc an invaluable tool for developers, aiding in the rapid iteration and enhancement of UI accessibility.
Abstract（参考訳）: モバイルアプリケーションにおけるアクセシビリティの確保は、特に画面リーダーに依存している視覚障害者にとって、依然として大きな課題である。ユーザインターフェースアイコンはナビゲーションとインタラクションに不可欠であり、意味のあるalt-textが欠如していることが多いため、効果的な使用の障壁が生じる。アルトテキストを生成するための従来のディープラーニングアプローチは、広範なデータセットを必要とし、アイコンタイプの多様性と不均衡に苦労する。最新のVision Language Models (VLM) には完全なUI画面が必要で、これはアプリ開発の反復的なフェーズにおいて実用的ではない。これらの問題に対処するため,我々はLarge Language Models (LLMs) を用いて,部分的なUIデータを持つモバイルUIアイコンに対する情報的アルトテキストを自律的に生成する手法を提案する。クラス、リソースID、バウンダリ、OCR検出されたテキスト、親と兄弟ノードからのコンテキスト情報を含むアイコンコンテキストを組み込むことで、約1.4kのアイコンからなる小さなデータセット上で、既製のLCMを微調整し、IconDescを生成する。経験的評価とユーザスタディでは、IconDescは関連するalt-textの生成において大幅な改善を示す。これにより、IconDescは開発者にとって貴重なツールとなり、迅速なイテレーションとUIアクセシビリティの向上を支援します。

関連論文リスト

Early Accessibility: Automating Alt-Text Generation for UI Icons During App Development [2.8682942808330703]
Alt-textはモバイルアプリのアクセシビリティには不可欠だが、UIアイコンには意味のある記述がなく、スクリーンリーダーユーザーのアクセシビリティが制限されている。既存のアプローチでは、広範なラベル付きデータセット、部分的なUIコンテキストとの闘い、開発後の運用、技術的負債の増加が必要になる。まず、開発者がいつ、どのようにアイコンアルトテキストを生成するかを決定するためのフォーマティブな研究を行う。次に,2つの微調整モデルを用いて,UIアイコンのalt-textを生成するALTICONアプローチについて検討する。精度を向上させるため、DOMツリーから関連するUI情報を抽出し、OCRを介してIConテキストを検索し、構造化されたプロンプトを適用する。
論文参考訳（メタデータ） (2025-04-17T16:31:05Z)
Leveraging Multimodal LLM for Inspirational User Interface Search [12.470067381902972]
既存のAIベースのUI検索メソッドは、ターゲットユーザやアプリのムードといった重要なセマンティクスを見逃すことが多い。我々はマルチモーダルな大言語モデル(MLLM)を用いて,モバイルUI画像から意味を抽出し,解釈した。われわれのアプローチは既存のUI検索方法よりも優れており、UIデザイナはよりリッチでコンテキストに関連のある検索体験を提供する。
論文参考訳（メタデータ） (2025-01-29T17:38:39Z)
Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL) Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文参考訳（メタデータ） (2024-12-13T18:40:10Z)
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文参考訳（メタデータ） (2024-12-05T18:58:26Z)
ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。 256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文参考訳（メタデータ） (2024-11-26T14:29:47Z)
Harnessing Webpage UIs for Text-Rich Visual Understanding [112.01029887404296]
テキストベース大規模言語モデル(LLM)を用いたWebページUIからの汎用マルチモーダル命令の合成を提案する。これらの命令はUIスクリーンショットと組み合わせて、マルチモーダルモデルのトレーニングを行う。我々は、100万のWebサイトから730万のサンプルを含むデータセットであるMultiUIを紹介し、多様なマルチモーダルタスクとUIレイアウトをカバーした。
論文参考訳（メタデータ） (2024-10-17T17:48:54Z)
Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。 Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文参考訳（メタデータ） (2024-06-12T02:43:19Z)
Alt4Blind: A User Interface to Simplify Charts Alt-Text Creation [21.06366893637007]
グラフ画像の代替テキスト(Alt-Text)は、盲目や視覚障害のある人にグラフィックをアクセスできるようにするのに不可欠である。最近のトレンドでは、Alt-Text生成にAIが使用されている。セマンティックラベル付き高品質Alt-Textsを用いて,5,000個の実画像からなる新しいベンチマークを提案する。我々は、同じ視覚的・テキスト的意味論を共有する類似のチャート画像のランク付けと検索を行う深層学習モデルを開発した。
論文参考訳（メタデータ） (2024-05-29T14:19:57Z)
ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine Conversations [13.939350184164017]
VLM(Multimodal Vision-Language Models)は、画像と言語を融合した理解から強力なアプリケーションを可能にする。既存のピクセルベース手法とLarge Language Model(LLM)を組み合わせることで、VLMのペアテキストイメージトレーニングデータを生成するためのレシピをUIドメインに適用する。我々は、Q&A、UI記述、計画をカバーするUIと組み合わせた335Kの会話例のデータセットを生成し、UIタスクのための会話VLMを微調整するためにそれを使用します。
論文参考訳（メタデータ） (2023-10-07T16:32:34Z)
Towards Better Semantic Understanding of Mobile Interfaces [7.756895821262432]
UI要素の機能の理解を深めることを目的とした,約500万のユニークなアノテーションを備えた,人間アノテーション付きデータセットをリリースしています。このデータセットは、モバイルUIの大規模なデータセットであるRICOのイメージとビュー階層を拡張している。また、画像のみの入力とマルチモーダル入力を用いたモデルもリリースし、様々なアーキテクチャを実験し、新しいデータセットでマルチモーダル入力を使用することの利点について検討する。
論文参考訳（メタデータ） (2022-10-06T03:48:54Z)
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文参考訳（メタデータ） (2022-05-24T11:52:06Z)
GenNI: Human-AI Collaboration for Data-Backed Text Generation [102.08127062293111]
Table2Textシステムは、機械学習を利用した構造化データに基づいてテキスト出力を生成する。 GenNI (Generation Negotiation Interface) は、対話型ビジュアルシステムである。
論文参考訳（メタデータ） (2021-10-19T18:07:07Z)
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文参考訳（メタデータ） (2021-02-11T10:08:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。