Fugu-MT 論文翻訳(概要): Hawkeye: Change-targeted Testing for Android Apps based on Deep Reinforcement Learning

論文の概要: Hawkeye: Change-targeted Testing for Android Apps based on Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2309.01519v1
Date: Mon, 4 Sep 2023 10:57:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-06 18:52:10.946421
Title: Hawkeye: Change-targeted Testing for Android Apps based on Deep Reinforcement Learning
Title（参考訳）: Hawkeye: 深層強化学習に基づくAndroidアプリの変更対象テスト
Authors: Chao Peng, Zhengwei Lv, Jiarong Fu, Jiayuan Liang, Zhao Zhang, Ajitha Rajan, Ping Yang
Abstract要約: 既存のAndroidテストツールは、アプリ全体のテストカバレッジを改善することに焦点を当てたGUIイベントを生成する。最近の研究では、変更に焦点を当てたテストを提案しているが、更新を実行するにはランダムな探索に頼っている。我々は、コード変更に関連するGUIアクションの実行を優先できるHawkeyeによるアプリアップデートの直接テストを提案する。
参考スコア（独自算出の注目度）: 10.118456850453512
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Android Apps are frequently updated to keep up with changing user, hardware, and business demands. Ensuring the correctness of App updates through extensive testing is crucial to avoid potential bugs reaching the end user. Existing Android testing tools generate GUI events focussing on improving the test coverage of the entire App rather than prioritising updates and its impacted elements. Recent research has proposed change-focused testing but relies on random exploration to exercise the updates and impacted GUI elements that is ineffective and slow for large complex Apps with a huge input exploration space. We propose directed testing of App updates with Hawkeye that is able to prioritise executing GUI actions associated with code changes based on deep reinforcement learning from historical exploration data. Our empirical evaluation compares Hawkeye with state-of-the-art model-based and reinforcement learning-based testing tools FastBot2 and ARES using 10 popular open-source and 1 commercial App. We find that Hawkeye is able to generate GUI event sequences targeting changed functions more reliably than FastBot2 and ARES for the open source Apps and the large commercial App. Hawkeye achieves comparable performance on smaller open source Apps with a more tractable exploration space. The industrial deployment of Hawkeye in the development pipeline also shows that Hawkeye is ideal to perform smoke testing for merge requests of a complicated commercial App.
Abstract（参考訳）: Android Appsは頻繁にアップデートされ、ユーザ、ハードウェア、ビジネスの要求に応じている。広範囲なテストを通じてアプリの更新の正確性を保証することは、エンドユーザへの潜在的なバグの回避に不可欠である。既存のAndroidテストツールは、アップデートとその影響要素を優先するのではなく、アプリ全体のテストカバレッジを改善することに焦点を当てたGUIイベントを生成する。最近の研究では、変更にフォーカスしたテストが提案されているが、大きな入力探索スペースを持つ複雑なアプリケーションにとって非効率で遅いGUI要素の更新と影響を、ランダムな探索に頼っている。我々は,歴史探査データから深層強化学習に基づいて,コード変更に伴うGUIアクションの実行を優先的に行うことができるHawkeyeを用いたアプリ更新のダイレクトテストを提案する。私たちの経験的評価は、Hawkeyeを、最先端のモデルベースおよび強化学習ベースのテストツールであるFastBot2とARESと比較します。私たちはHawkeyeが、オープンソースアプリと大規模な商用アプリのために、FastBot2やARESよりも確実に変化した関数をターゲットとしたGUIイベントシーケンスを生成することができることに気付きました。 Hawkeyeは、より縮小可能な調査スペースを備えた、小さなオープンソースアプリケーションで同等のパフォーマンスを実現している。開発パイプラインにおけるhawkeyeの産業展開は、複雑な商用アプリのマージ要求に対して、hawkeyeがスモークテストを実行するのが理想的であることを示している。

関連論文リスト

GTA1: GUI Test-time Scaling Agent [77.60727242084971]
本稿ではGUIテストタイムスケーリングエージェントGTA1の2つの課題について検討する。まず、最も適切なアクション提案を選択するために、テスト時間スケーリング手法を提案する。第2に、選択したアクション提案を対応する視覚要素にグラウンドする際の精度の向上を実現するモデルを提案する。
論文参考訳（メタデータ） (2025-07-08T08:52:18Z)
MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。 GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文参考訳（メタデータ） (2025-07-08T07:07:53Z)
GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent [66.34801160469067]
MLLMはUIコンポーネントの誤解釈と古い知識の2つの大きな問題に悩まされている。本稿では,2つの基本的なメカニズムを組み込んだトレーニング不要なGUIエージェントであるGUI-Explorerを提案する。 SPA-Benchでは53.7%、AndroidWorldでは47.4%のタスク成功率で、GUI-ExplorerはSOTAエージェントよりも大幅に改善されている。
論文参考訳（メタデータ） (2025-05-22T16:01:06Z)
POET: Prompt Offset Tuning for Continual Human Action Adaptation [61.63831623094721]
ユーザと開発者に対して,デバイスモデルに新たなアクションクラスを継続的に追加することで,エクスペリエンスをパーソナライズする機能の提供を目標としています。我々はこれをプライバシーに配慮した数発の連続的な行動認識として定式化する。本稿では,新しい時間的学習可能なプロンプトチューニング手法を提案し,グラフニューラルネットワークにこのようなプロンプトチューニングを適用した。
論文参考訳（メタデータ） (2025-04-25T04:11:24Z)
GUI-Bee: Align GUI Action Grounding to Novel Environments via Autonomous Exploration [56.58744345634623]
MLLMをベースとした自律エージェントGUI-Beeを提案する。 NovelScreenSpotも導入しています。これはGUIアクショングラウンドモデルと新しい環境との整合性をテストするためのベンチマークです。
論文参考訳（メタデータ） (2025-01-23T18:16:21Z)
ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。 256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文参考訳（メタデータ） (2024-11-26T14:29:47Z)
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents [55.37173845836839]
OS-AtlasはGUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルである。現在までに1300万以上のGUI要素を含む、オープンソースのクロスプラットフォームGUI基盤コーパスをリリースしています。
論文参考訳（メタデータ） (2024-10-30T17:10:19Z)
What If We Had Used a Different App? Reliable Counterfactual KPI Analysis in Wireless Systems [52.499838151272016]
本稿では、無線アクセスネットワーク(RAN)によって異なるアプリが実装された場合、キーパフォーマンス指標(KPI)の値を推定する「What-if」問題に対処する。本稿では,推定値に対して信頼度の高い「エラーバー」を提供する無線システムに対する共形予測に基づく対実解析手法を提案する。
論文参考訳（メタデータ） (2024-09-30T18:47:26Z)
GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices [61.48043339441149]
GUI Odysseyは6つのモバイルデバイスから7,735エピソードで構成され、6種類のクロスアプリタスク、201のアプリ、1.4Kのアプリコンボで構成されている。履歴再サンプリングモジュールを用いたQwen-VLモデルの微調整により,マルチモーダルなクロスアプリナビゲーションエージェントであるOdysseyAgentを開発した。
論文参考訳（メタデータ） (2024-06-12T17:44:26Z)
Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。 Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文参考訳（メタデータ） (2024-06-12T02:43:19Z)
Multi-Objective Improvement of Android Applications [10.660480034605243]
7つのAndroidアプリの21バージョンのテストを書き、パフォーマンス改善のための新しいベンチマークを作成しました。我々は、改良されたソフトウェアを見つけるために、ソフトウェア変種の範囲をナビゲートする検索ベースの技術である、遺伝的改善を使用している。これらのアプリでは、実行時間を最大35%改善し、メモリ使用量を最大33%改善しました。
論文参考訳（メタデータ） (2023-08-22T12:26:43Z)
Scene-Driven Exploration and GUI Modeling for Android Apps [13.647261033241364]
ATG,WTG,STGなどのアプリケーションに対する抽出された遷移グラフは,遷移カバレッジが低く,粒度が粗い。動的にGUIシーンを抽出するシーン駆動探索手法であるSceneDroidを提案する。既存のGUIモデリングツールと比較すると、SceneDroidは168.74%のトランジションペアと162.42%のシーン抽出で改善されている。
論文参考訳（メタデータ） (2023-08-20T10:54:25Z)
Chatting with GPT-3 for Zero-Shot Human-Like Mobile Automated GUI Testing [23.460051600514806]
GPTDroid を提案し,GUI ページ情報を LLM に渡してテストスクリプトを抽出することにより,大規模言語モデルにモバイルアプリとのチャットを依頼する。そこで我々はGUIページの静的コンテキストと反復テストプロセスの動的コンテキストを抽出する。 Google Playの86のアプリ上でGPTDroidを評価し、そのアクティビティカバレッジは71%で、最高のベースラインよりも32%高く、最高のベースラインよりも高速で36%多くのバグを検出することができます。
論文参考訳（メタデータ） (2023-05-16T13:46:52Z)
Effective, Platform-Independent GUI Testing via Image Embedding and Reinforcement Learning [15.458315113767686]
アプリケーションテストに有効なプラットフォームに依存しないアプローチであるPIRLTestを提案する。コンピュータビジョンと強化学習技術を利用して、新しいシナジスティックな方法で自動テストを行う。 PILTestは、Q-networkを使用して特定の状態-アクションペアの値を見積もる好奇心駆動型戦略のガイダンスで、アプリを探索する。
論文参考訳（メタデータ） (2022-08-19T01:51:16Z)
Emerging App Issue Identification via Online Joint Sentiment-Topic Tracing [66.57888248681303]
本稿では,MERITという新しい問題検出手法を提案する。 AOBSTモデルに基づいて、1つのアプリバージョンに対するユーザレビューに否定的に反映されたトピックを推測する。 Google PlayやAppleのApp Storeで人気のアプリに対する実験は、MERITの有効性を実証している。
論文参考訳（メタデータ） (2020-08-23T06:34:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。