論文の概要: Unblind Your Apps: Predicting Natural-Language Labels for Mobile GUI
Components by Deep Learning
- arxiv url: http://arxiv.org/abs/2003.00380v2
- Date: Thu, 2 Jul 2020 11:38:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 13:20:37.193894
- Title: Unblind Your Apps: Predicting Natural-Language Labels for Mobile GUI
Components by Deep Learning
- Title(参考訳): unblind your apps:ディープラーニングによるモバイルguiコンポーネントの自然言語ラベルの予測
- Authors: Jieshan Chen, Chunyang Chen, Zhenchang Xing, Xiwei Xu, Liming Zhu,
Guoqiang Li, and Jinshui Wang
- Abstract要約: 10,408のAndroidアプリの分析によると、77%以上のアプリがラベルを欠落している。
画像ベースボタンのラベルを自動的に予測するディープラーニングベースモデルであるLabelDroidを開発した。
実験の結果,我々のモデルでは正確な予測が可能であり,生成したラベルは実際のAndroid開発者よりも高品質であることがわかった。
- 参考スコア(独自算出の注目度): 21.56849865328527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: According to the World Health Organization(WHO), it is estimated that
approximately 1.3 billion people live with some forms of vision impairment
globally, of whom 36 million are blind. Due to their disability, engaging these
minority into the society is a challenging problem. The recent rise of smart
mobile phones provides a new solution by enabling blind users' convenient
access to the information and service for understanding the world. Users with
vision impairment can adopt the screen reader embedded in the mobile operating
systems to read the content of each screen within the app, and use gestures to
interact with the phone. However, the prerequisite of using screen readers is
that developers have to add natural-language labels to the image-based
components when they are developing the app. Unfortunately, more than 77% apps
have issues of missing labels, according to our analysis of 10,408 Android
apps. Most of these issues are caused by developers' lack of awareness and
knowledge in considering the minority. And even if developers want to add the
labels to UI components, they may not come up with concise and clear
description as most of them are of no visual issues. To overcome these
challenges, we develop a deep-learning based model, called LabelDroid, to
automatically predict the labels of image-based buttons by learning from
large-scale commercial apps in Google Play. The experimental results show that
our model can make accurate predictions and the generated labels are of higher
quality than that from real Android developers.
- Abstract(参考訳): 世界保健機関(WHO)によると、世界中で約13億人が視覚障害を患っており、そのうち3600万人が盲目である。
その障害のため、これらの少数派を社会に巻き込むことは難しい問題である。
近年の携帯電話の普及は、視覚障害者が世界を理解するための情報やサービスにアクセスしやすくすることで、新しいソリューションを提供する。
視覚障害のあるユーザは、モバイルオペレーティングシステムに埋め込まれたスクリーンリーダーを採用して、アプリ内の各画面のコンテンツを読み、ジェスチャーを使ってスマートフォンと対話することができる。
しかし、スクリーンリーダーを使う前提は、開発者がアプリを開発する際に、画像ベースのコンポーネントに自然言語ラベルを追加する必要があることである。
10,408のAndroidアプリの分析によると、残念ながら77%以上のアプリがラベルの不足に悩まされている。
これらの問題のほとんどは、マイノリティを考慮した開発者の認識と知識の欠如によって引き起こされる。
また、開発者がラベルをUIコンポーネントに追加したいとしても、視覚的な問題がないため、簡潔で明確な説明が得られない可能性がある。
これらの課題を克服するために、Google Playの大規模商用アプリから学習することで、画像ベースのボタンのラベルを自動的に予測するディープラーニングベースのモデル、LabelDroidを開発した。
実験の結果,本モデルは正確な予測を行うことができ,生成ラベルは実際のandroid開発者よりも高品質であることが判明した。
関連論文リスト
- ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents [50.39555842254652]
我々は,モバイルシナリオにおけるAIエージェントの研究を進めるために,Android Multi-Annotation EXpo (AMEX)を紹介した。
AMEXは110のモバイルアプリケーションから104K以上の高解像度のスクリーンショットで構成されており、複数のレベルでアノテートされている。
AMEXには、GUIインタラクティブな要素接地、GUIスクリーンと要素機能記述、複雑な自然言語命令の3段階のアノテーションが含まれている。
論文 参考訳(メタデータ) (2024-07-03T17:59:58Z) - Vision-driven Automated Mobile GUI Testing via Multimodal Large Language Model [27.97964877860671]
本稿では,マルチモーダル大規模言語モデルを用いて,非クラッシュな機能的バグを検出する視覚駆動型GUIテスト手法を提案する。
GUIテキスト情報を抽出し、スクリーンショットと整列して視覚プロンプトを形成することで、MLLMはGUIコンテキストを理解することができる。
VisionDroidは、Google Playの29の新しいバグを特定し、そのうち19が確認され、修正されている。
論文 参考訳(メタデータ) (2024-07-03T11:58:09Z) - Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。
Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。
新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文 参考訳(メタデータ) (2024-06-12T02:43:19Z) - Improve accessibility for Low Vision and Blind people using Machine Learning and Computer Vision [0.0]
このプロジェクトでは、視覚障害者のアクセシビリティ向上に機械学習とコンピュータビジョンを活用する方法について検討する。
このプロジェクトでは、視覚障害者が音声や触覚のフィードバックを受信することで、空間内でのオリエントを支援するモバイルアプリケーションの構築に集中する。
論文 参考訳(メタデータ) (2024-03-24T21:19:17Z) - Towards Automated Accessibility Report Generation for Mobile Apps [14.908672785900832]
アプリケーションアクセシビリティーレポート全体を生成するシステムを提案する。
様々なデータ収集方法(アプリクローリング、手動記録など)と既存のアクセシビリティスキャナを組み合わせる。
論文 参考訳(メタデータ) (2023-09-29T19:05:11Z) - Automated and Context-Aware Repair of Color-Related Accessibility Issues
for Android Apps [28.880881834251227]
アプリケーションにおける色関連アクセシビリティ問題を修正するための,自動かつコンテキスト対応の修復手法であるIrisを提案する。
新たなコンテキスト認識技術を活用することで、Irisは最適な色と属性対ペアのローカライゼーションの重要なフェーズを解決した。
実験の結果,Irisは91.38%の補修成功率を高い効率と効率で達成できることがわかった。
論文 参考訳(メタデータ) (2023-08-17T15:03:11Z) - A Pairwise Dataset for GUI Conversion and Retrieval between Android
Phones and Tablets [24.208087862974033]
Paptデータセットは、Androidスマートフォンとタブレット間のGUI変換と検索のためのペアワイズデータセットである。
データセットには5,593の電話-タブレットアプリペアから10,035の電話-タブレットGUIページペアが含まれている。
論文 参考訳(メタデータ) (2023-07-25T03:25:56Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Fast and Accurate Quantized Camera Scene Detection on Smartphones,
Mobile AI 2021 Challenge: Report [65.91472671013302]
我々は、量子化ディープラーニングベースのカメラシーン分類ソリューションを開発することを目的とした、最初のMobile AIチャレンジを紹介する。
提案されたソリューションは、すべての主要なモバイルAIアクセラレータと完全に互換性があり、最近のスマートフォンプラットフォームの大部分で100-200 FPS以上を実証することができる。
論文 参考訳(メタデータ) (2021-05-17T13:55:38Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。