Fugu-MT 論文翻訳(概要): Unblind Your Apps: Predicting Natural-Language Labels for Mobile GUI Components by Deep Learning

論文の概要: Unblind Your Apps: Predicting Natural-Language Labels for Mobile GUI Components by Deep Learning

arxiv url: http://arxiv.org/abs/2003.00380v2
Date: Thu, 2 Jul 2020 11:38:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-27 13:20:37.193894
Title: Unblind Your Apps: Predicting Natural-Language Labels for Mobile GUI Components by Deep Learning
Title（参考訳）: unblind your apps:ディープラーニングによるモバイルguiコンポーネントの自然言語ラベルの予測
Authors: Jieshan Chen, Chunyang Chen, Zhenchang Xing, Xiwei Xu, Liming Zhu, Guoqiang Li, and Jinshui Wang
Abstract要約: 10,408のAndroidアプリの分析によると、77%以上のアプリがラベルを欠落している。画像ベースボタンのラベルを自動的に予測するディープラーニングベースモデルであるLabelDroidを開発した。実験の結果,我々のモデルでは正確な予測が可能であり,生成したラベルは実際のAndroid開発者よりも高品質であることがわかった。
参考スコア（独自算出の注目度）: 21.56849865328527
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: According to the World Health Organization(WHO), it is estimated that approximately 1.3 billion people live with some forms of vision impairment globally, of whom 36 million are blind. Due to their disability, engaging these minority into the society is a challenging problem. The recent rise of smart mobile phones provides a new solution by enabling blind users' convenient access to the information and service for understanding the world. Users with vision impairment can adopt the screen reader embedded in the mobile operating systems to read the content of each screen within the app, and use gestures to interact with the phone. However, the prerequisite of using screen readers is that developers have to add natural-language labels to the image-based components when they are developing the app. Unfortunately, more than 77% apps have issues of missing labels, according to our analysis of 10,408 Android apps. Most of these issues are caused by developers' lack of awareness and knowledge in considering the minority. And even if developers want to add the labels to UI components, they may not come up with concise and clear description as most of them are of no visual issues. To overcome these challenges, we develop a deep-learning based model, called LabelDroid, to automatically predict the labels of image-based buttons by learning from large-scale commercial apps in Google Play. The experimental results show that our model can make accurate predictions and the generated labels are of higher quality than that from real Android developers.
Abstract（参考訳）: 世界保健機関(WHO)によると、世界中で約13億人が視覚障害を患っており、そのうち3600万人が盲目である。その障害のため、これらの少数派を社会に巻き込むことは難しい問題である。近年の携帯電話の普及は、視覚障害者が世界を理解するための情報やサービスにアクセスしやすくすることで、新しいソリューションを提供する。視覚障害のあるユーザは、モバイルオペレーティングシステムに埋め込まれたスクリーンリーダーを採用して、アプリ内の各画面のコンテンツを読み、ジェスチャーを使ってスマートフォンと対話することができる。しかし、スクリーンリーダーを使う前提は、開発者がアプリを開発する際に、画像ベースのコンポーネントに自然言語ラベルを追加する必要があることである。 10,408のAndroidアプリの分析によると、残念ながら77%以上のアプリがラベルの不足に悩まされている。これらの問題のほとんどは、マイノリティを考慮した開発者の認識と知識の欠如によって引き起こされる。また、開発者がラベルをUIコンポーネントに追加したいとしても、視覚的な問題がないため、簡潔で明確な説明が得られない可能性がある。これらの課題を克服するために、Google Playの大規模商用アプリから学習することで、画像ベースのボタンのラベルを自動的に予測するディープラーニングベースのモデル、LabelDroidを開発した。実験の結果,本モデルは正確な予測を行うことができ,生成ラベルは実際のandroid開発者よりも高品質であることが判明した。

関連論文リスト

Are your apps accessible? A GCN-based accessibility checker for low vision users [22.747735521796077]
本稿では,グラフィカルユーザインタフェースをグラフとして表現し,グラフ畳み込みニューラルネットワーク(GCN)を用いて,アクセス不能なコンポーネントのラベル付けを行う,ALVINという新しいアプローチを提案する。 48アプリの実験では、ALVINの精度は83.5%、リコールは78.9%、F1スコアは81.2%で、ベースライン法よりも優れていた。
論文参考訳（メタデータ） (2025-02-20T06:04:06Z)
Falcon-UI: Understanding GUI Before Following User Instructions [57.67308498231232]
インテリジェンスフリーなGUIナビゲーションデータセットであるInsight-UIデータセットを導入し、GUI環境のモデル理解を強化する。 Insight-UIデータセットはCommon Crawlコーパスから自動的に生成され、さまざまなプラットフォームをシミュレートする。我々は、最初Insight-UIデータセットで事前訓練され、その後AndroidおよびWeb GUIデータセットで微調整されたGUIエージェントモデルFalcon-UIを開発した。
論文参考訳（メタデータ） (2024-12-12T15:29:36Z)
ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。 256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文参考訳（メタデータ） (2024-11-26T14:29:47Z)
AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents [50.39555842254652]
我々は,モバイルシナリオにおけるAIエージェントの研究を進めるために,Android Multi-Annotation EXpo (AMEX)を紹介した。 AMEXは110のモバイルアプリケーションから104K以上の高解像度のスクリーンショットで構成されており、複数のレベルでアノテートされている。 AMEXには、GUIインタラクティブな要素接地、GUIスクリーンと要素機能記述、複雑な自然言語命令の3段階のアノテーションが含まれている。
論文参考訳（メタデータ） (2024-07-03T17:59:58Z)
Vision-driven Automated Mobile GUI Testing via Multimodal Large Language Model [27.97964877860671]
本稿では,マルチモーダル大規模言語モデルを用いて,非クラッシュな機能的バグを検出する視覚駆動型GUIテスト手法を提案する。 GUIテキスト情報を抽出し、スクリーンショットと整列して視覚プロンプトを形成することで、MLLMはGUIコンテキストを理解することができる。 VisionDroidは、Google Playの29の新しいバグを特定し、そのうち19が確認され、修正されている。
論文参考訳（メタデータ） (2024-07-03T11:58:09Z)
Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。 Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文参考訳（メタデータ） (2024-06-12T02:43:19Z)
Improve accessibility for Low Vision and Blind people using Machine Learning and Computer Vision [0.0]
このプロジェクトでは、視覚障害者のアクセシビリティ向上に機械学習とコンピュータビジョンを活用する方法について検討する。このプロジェクトでは、視覚障害者が音声や触覚のフィードバックを受信することで、空間内でのオリエントを支援するモバイルアプリケーションの構築に集中する。
論文参考訳（メタデータ） (2024-03-24T21:19:17Z)
Towards Automated Accessibility Report Generation for Mobile Apps [14.908672785900832]
アプリケーションアクセシビリティーレポート全体を生成するシステムを提案する。様々なデータ収集方法(アプリクローリング、手動記録など)と既存のアクセシビリティスキャナを組み合わせる。
論文参考訳（メタデータ） (2023-09-29T19:05:11Z)
Automated and Context-Aware Repair of Color-Related Accessibility Issues for Android Apps [28.880881834251227]
アプリケーションにおける色関連アクセシビリティ問題を修正するための,自動かつコンテキスト対応の修復手法であるIrisを提案する。新たなコンテキスト認識技術を活用することで、Irisは最適な色と属性対ペアのローカライゼーションの重要なフェーズを解決した。実験の結果,Irisは91.38%の補修成功率を高い効率と効率で達成できることがわかった。
論文参考訳（メタデータ） (2023-08-17T15:03:11Z)
A Pairwise Dataset for GUI Conversion and Retrieval between Android Phones and Tablets [24.208087862974033]
Paptデータセットは、Androidスマートフォンとタブレット間のGUI変換と検索のためのペアワイズデータセットである。データセットには5,593の電話-タブレットアプリペアから10,035の電話-タブレットGUIページペアが含まれている。
論文参考訳（メタデータ） (2023-07-25T03:25:56Z)
VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文参考訳（メタデータ） (2021-07-06T15:41:32Z)
Fast and Accurate Quantized Camera Scene Detection on Smartphones, Mobile AI 2021 Challenge: Report [65.91472671013302]
我々は、量子化ディープラーニングベースのカメラシーン分類ソリューションを開発することを目的とした、最初のMobile AIチャレンジを紹介する。提案されたソリューションは、すべての主要なモバイルAIアクセラレータと完全に互換性があり、最近のスマートフォンプラットフォームの大部分で100-200 FPS以上を実証することができる。
論文参考訳（メタデータ） (2021-05-17T13:55:38Z)
Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文参考訳（メタデータ） (2021-03-16T03:38:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。