Fugu-MT 論文翻訳(概要): AURORA: Navigating UI Tarpits via Automated Neural Screen Understanding

論文の概要: AURORA: Navigating UI Tarpits via Automated Neural Screen Understanding

arxiv url: http://arxiv.org/abs/2404.01240v1
Date: Mon, 1 Apr 2024 16:58:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 21:36:17.748776
Title: AURORA: Navigating UI Tarpits via Automated Neural Screen Understanding
Title（参考訳）: AURORA: 自動ニューラルスクリーン理解によるUIターゲットのナビゲーション
Authors: Safwat Ali Khan, Wenyu Wang, Yiran Ren, Bin Zhu, Jiangfan Shi, Alyssa McGowan, Wing Lam, Kevin Moran,
Abstract要約: AURORAは、モバイルアプリUIに存在する視覚的およびテキスト的パターンから学習し、一般的なスクリーンデザインを自動的に検出し、それに従ってナビゲートする技術である。 AURORAはタルピートスクリーンを効果的にナビゲートすることができ、ターピートを19.6%のメソッドカバレッジで回避する以前のアプローチよりも優れている。
参考スコア（独自算出の注目度）: 25.212935662130434
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Nearly a decade of research in software engineering has focused on automating mobile app testing to help engineers in overcoming the unique challenges associated with the software platform. Much of this work has come in the form of Automated Input Generation tools (AIG tools) that dynamically explore app screens. However, such tools have repeatedly been demonstrated to achieve lower-than-expected code coverage - particularly on sophisticated proprietary apps. Prior work has illustrated that a primary cause of these coverage deficiencies is related to so-called tarpits, or complex screens that are difficult to navigate. In this paper, we take a critical step toward enabling AIG tools to effectively navigate tarpits during app exploration through a new form of automated semantic screen understanding. We introduce AURORA, a technique that learns from the visual and textual patterns that exist in mobile app UIs to automatically detect common screen designs and navigate them accordingly. The key idea of AURORA is that there are a finite number of mobile app screen designs, albeit with subtle variations, such that the general patterns of different categories of UI designs can be learned. As such, AURORA employs a multi-modal, neural screen classifier that is able to recognize the most common types of UI screen designs. After recognizing a given screen, it then applies a set of flexible and generalizable heuristics to properly navigate the screen. We evaluated AURORA both on a set of 12 apps with known tarpits from prior work, and on a new set of five of the most popular apps from the Google Play store. Our results indicate that AURORA is able to effectively navigate tarpit screens, outperforming prior approaches that avoid tarpits by 19.6% in terms of method coverage. The improvements can be attributed to AURORA's UI design classification and heuristic navigation techniques.
Abstract（参考訳）: ソフトウェアエンジニアリングにおける10年近くの研究は、ソフトウェアエンジニアがソフトウェアプラットフォームに関連するユニークな課題を克服するのを助けるために、モバイルアプリテストを自動化することに重点を置いてきた。この作業の多くは、アプリ画面を動的に探索するAIGツール(Automated Input Generation Tool)の形で行われています。しかしながら、このようなツールは、特に高度なプロプライエタリなアプリにおいて、予想より低いコードカバレッジを達成するために、何度も実証されてきた。以前の研究では、これらのカバレッジ障害の主な原因は、いわゆるターピットや、ナビゲートが難しい複雑なスクリーンに関係していることが示されています。本稿では、AIGツールがアプリ探索中に、新しいタイプのセマンティックスクリーン理解を通じて、タルピートを効果的にナビゲートできるようにするための重要な一歩を踏み出す。 AURORAは、モバイルアプリUIに存在する視覚的およびテキスト的パターンから学習し、一般的なスクリーンデザインを自動的に検出し、それに従ってナビゲートする技術である。 AURORAのキーとなる考え方は、UIデザインのカテゴリの一般的なパターンを学習できるように、微妙なバリエーションがあるにもかかわらず、モバイルアプリのスクリーンデザインが有限であるということだ。そのため、AURORAは、最も一般的なUIスクリーンデザインを認識できるマルチモーダルなニューラルスクリーン分類器を使用している。画面を認識した後、フレキシブルで一般化可能なヒューリスティックのセットを適用して、画面を適切にナビゲートする。私たちはAURORAを、以前の作業から既知のタルプを持つ12のアプリセットと、Google Playストアから最も人気のある5つのアプリセットで評価しました。以上の結果から,AURORAはタルピートスクリーンを効果的にナビゲートでき,従来の手法よりも19.6%高い精度でタルピートを回避できることがわかった。この改良は、AURORAのUI設計分類とヒューリスティックナビゲーション技術による。

関連論文リスト

MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。 GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文参考訳（メタデータ） (2025-07-08T07:07:53Z)
GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent [66.34801160469067]
MLLMはUIコンポーネントの誤解釈と古い知識の2つの大きな問題に悩まされている。本稿では,2つの基本的なメカニズムを組み込んだトレーニング不要なGUIエージェントであるGUI-Explorerを提案する。 SPA-Benchでは53.7%、AndroidWorldでは47.4%のタスク成功率で、GUI-ExplorerはSOTAエージェントよりも大幅に改善されている。
論文参考訳（メタデータ） (2025-05-22T16:01:06Z)
Advancing Mobile UI Testing by Learning Screen Usage Semantics [0.42303492200814446]
本研究は,モバイルアプリの画面利用セマンティクスを学習することで,自動UIテスト技術の向上を目指す。また、UI設計の問題を特定し緩和することで、モバイルアプリのインターフェイスのユーザビリティも向上する。
論文参考訳（メタデータ） (2025-05-15T01:40:43Z)
VLM-Fuzz: Vision Language Model Assisted Recursive Depth-first Search Exploration for Effective UI Testing of Android Apps [6.122273281101832]
Androidアプリを効果的にテストするには、アプリの可能な状態を体系的に調査する必要がある。そこで本研究では,AndroidアプリのUIを効果的にテストするための,VLM-Fuzzと呼ばれる新しいファジリング手法を提案する。
論文参考訳（メタデータ） (2025-04-16T00:19:31Z)
SeeAction: Towards Reverse Engineering How-What-Where of HCI Actions from Screencasts for UI Automation [27.642643976716716]
本研究では,11個のコマンドと11個のウィジェットを認識可能なディープラーニングベースのコンピュータビジョンモデルを提案する。 7260のビデオアクションペアによる大規模なデータセットをラベル付けし、Word、Zoom、Firefox、Photoshop、Windows 10の設定とのインタラクションを記録します。
論文参考訳（メタデータ） (2025-03-17T07:07:38Z)
UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。 OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文参考訳（メタデータ） (2025-01-21T17:48:10Z)
From Exploration to Revelation: Detecting Dark Patterns in Mobile Apps [23.500272967327543]
AppRayは、タスク指向のアプリ探索と自動ダークパターン検出をシームレスにブレンドするシステムである。私たちはAppRay-DarkとAppRay-Lightという2つのデータセットをコントリビュートしました。実験の結果、AppRayはアプリを効率的に探索し、大きなパフォーマンスで広範囲の暗いパターンを識別できることを確認した。
論文参考訳（メタデータ） (2024-11-27T06:39:35Z)
AutoGLM: Autonomous Foundation Agents for GUIs [51.276965515952]
我々は、グラフィカルユーザインタフェース(GUI)を介してデジタルデバイスを自律的に制御するための基礎エージェントとして設計された、ChatGLMファミリーの新しいシリーズであるAutoGLMを紹介する。実世界のGUIインタラクションのための実践的基礎エージェントシステムとしてAutoGLMを開発した。評価では、AutoGLMが複数のドメインにまたがって有効であることを示す。
論文参考訳（メタデータ） (2024-10-28T17:05:10Z)
A Rule-Based Approach for UI Migration from Android to iOS [11.229343760409044]
既存のAndroidアプリUIからiOSへのクロスプラットフォーム移行を可能にするGUIMIGRATORと呼ばれる新しいアプローチを提案する。 GuiMIGRATORは、UIスケルトンツリーを構築するために、Android UIレイアウト、ビュー、リソースを抽出し解析する。 GuiMIGRATORは、ターゲットコードテンプレートを使用して最終的なUIコードファイルを生成し、iOS開発プラットフォームでコンパイルされ、検証される。
論文参考訳（メタデータ） (2024-09-25T06:19:54Z)
Ragnarök: A Reusable RAG Framework and Baselines for TREC 2024 Retrieval-Augmented Generation Track [51.25144287084172]
RAGベースの検索システムを構築、テスト、視覚化、体系的に評価するためのアリーナを持つことが不可欠である。 TREC 2024 RAG Trackを提案する。
論文参考訳（メタデータ） (2024-06-24T17:37:52Z)
You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文参考訳（メタデータ） (2023-09-20T16:12:32Z)
AidUI: Toward Automated Recognition of Dark Patterns in User Interfaces [6.922187804798161]
UIのダークパターンは、エンドユーザが意図したことのないアクションを取る(無意識に)ためのものです。 AidUIは、コンピュータビジョンと自然言語処理技術を用いて、10種類のユニークなUIダークパターンを認識する新しいアプローチである。 AidUIは、ダークパターンの検出において0.66、リコール0.67、F1スコア0.65の総合精度を実現し、検出されたパターンをIoUスコア0.84でローカライズすることができる。
論文参考訳（メタデータ） (2023-03-12T23:46:04Z)
Spotlight: Mobile UI Understanding using Vision-Language Models with a Focus [9.401663915424008]
本稿では,UIのスクリーンショットと画面上の関心領域のみを入力とする視覚言語モデルを提案する。実験の結果,本モデルではいくつかのUIタスクにおいてSoTA結果が得られ,従来手法よりも優れていたことが判明した。
論文参考訳（メタデータ） (2022-09-29T16:45:43Z)
Effective, Platform-Independent GUI Testing via Image Embedding and Reinforcement Learning [15.458315113767686]
アプリケーションテストに有効なプラットフォームに依存しないアプローチであるPIRLTestを提案する。コンピュータビジョンと強化学習技術を利用して、新しいシナジスティックな方法で自動テストを行う。 PILTestは、Q-networkを使用して特定の状態-アクションペアの値を見積もる好奇心駆動型戦略のガイダンスで、アプリを探索する。
論文参考訳（メタデータ） (2022-08-19T01:51:16Z)
Polyline Based Generative Navigable Space Segmentation for Autonomous Visual Navigation [57.3062528453841]
ロボットが教師なしの方法で移動可能な空間分割を学習できるようにするための表現学習ベースのフレームワークを提案する。提案するPSV-Netは,単一のラベルを使わずとも,高精度で視覚ナビゲーション可能な空間を学習可能であることを示す。
論文参考訳（メタデータ） (2021-10-29T19:50:48Z)
Emerging App Issue Identification via Online Joint Sentiment-Topic Tracing [66.57888248681303]
本稿では,MERITという新しい問題検出手法を提案する。 AOBSTモデルに基づいて、1つのアプリバージョンに対するユーザレビューに否定的に反映されたトピックを推測する。 Google PlayやAppleのApp Storeで人気のアプリに対する実験は、MERITの有効性を実証している。
論文参考訳（メタデータ） (2020-08-23T06:34:05Z)
FastReID: A Pytorch Toolbox for General Instance Re-identification [70.10996607445725]
一般的なインスタンスの再識別は、コンピュータビジョンにおいて非常に重要なタスクである。我々は、JD AI Researchにおいて広く使われているソフトウェアシステムとしてFastReIDを提示する。我々は、人物のリID、部分的なリID、クロスドメインのリID、車両のリIDなど、最先端のプロジェクトをいくつか実施してきた。
論文参考訳（メタデータ） (2020-06-04T03:51:43Z)
I-ViSE: Interactive Video Surveillance as an Edge Service using Unsupervised Feature Queries [70.69741666849046]
本稿では、教師なし機能クエリに基づくエッジサービス(I-ViSE)としてインタラクティブビデオ監視を提案する。 I-ViSEのプロトタイプはエッジフォッグコンピューティングのパラダイムに従って構築され、実験により、I-ViSE方式がシーン認識の設計目標を2秒以内で満たすことを確認した。
論文参考訳（メタデータ） (2020-03-09T14:26:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。