論文の概要: CovAgent: Overcoming the 30% Curse of Mobile Application Coverage with Agentic AI and Dynamic Instrumentation
- arxiv url: http://arxiv.org/abs/2601.21253v1
- Date: Thu, 29 Jan 2026 04:21:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.571744
- Title: CovAgent: Overcoming the 30% Curse of Mobile Application Coverage with Agentic AI and Dynamic Instrumentation
- Title(参考訳): CovAgent:エージェントAIとダイナミックインスツルメンテーションによるモバイルアプリケーションカバレッジの30%を克服
- Authors: Wei Minn, Biniam Fisseha Demissie, Yan Naing Tun, Jiakun Liu, Mariano Ceccato, Lwin Khin Shar, David Lo,
- Abstract要約: CovAgentは、AndroidアプリのUIテストを強化するためのエージェントAIを使った新しいアプローチである。
我々のフレームワークは、最先端のLLMDroidよりもテストカバレッジが大幅に向上する。
CovAgentはクラス、メソッド、ラインカバレッジなど、他のメトリクスのベースラインよりも優れています。
- 参考スコア(独自算出の注目度): 10.80010959571188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated GUI testing is crucial for ensuring the quality and reliability of Android apps. However, the efficacy of existing UI testing techniques is often limited, especially in terms of coverage. Recent studies, including the state-of-the-art, struggle to achieve more than 30% activity coverage in real-world apps. This limited coverage can be attributed to a combination of factors such as failing to generate complex user inputs, unsatisfied activation conditions regarding device configurations and external resources, and hard-to-reach code paths that are not easily accessible through the GUI. To overcome these limitations, we propose CovAgent, a novel agentic AI-powered approach to enhance Android app UI testing. Our fuzzer-agnostic framework comprises an AI agent that inspects the app's decompiled Smali code and component transition graph, and reasons about unsatisfied activation conditions within the app code logic that prevent access to the activities that are unreachable by standard and widely adopted GUI fuzzers. Then, another agent generates dynamic instrumentation scripts that satisfy activation conditions required for successful transitions to those activities. We found that augmenting existing fuzzing approaches with our framework achieves a significant improvement in test coverage over the state-of-the-art, LLMDroid, and other baselines such as Fastbot and APE (e.g., 101.1%, 116.3% and 179.7% higher activity coverage, respectively). CovAgent also outperforms all the baselines in other metrics such as class, method, and line coverage. We also conduct investigations into components within CovAgent to reveal further insights regarding the efficacy of Agentic AI in the field of automated app testing such as the agentic activation condition inference accuracy, and agentic activity-launching success rate.
- Abstract(参考訳): 自動GUIテストは、Androidアプリの品質と信頼性を保証するために不可欠である。
しかし、既存のUIテストテクニックの有効性は、特にカバレッジに関して制限されることが多い。
最先端のアプリを含む最近の研究は、現実世界のアプリで30%以上のアクティビティカバレッジを達成するのに苦労している。
この制限されたカバレッジは、複雑なユーザ入力の生成に失敗したこと、デバイス構成や外部リソースに関する不満足なアクティベーション条件、GUIを通して簡単にアクセスできないコードのパスといった要素の組み合わせによるものである。
これらの制限を克服するため、AndroidアプリのUIテストを強化するために、エージェントAIを使った新しいアプローチであるCovAgentを提案する。
我々のファジィア依存フレームワークは、アプリのデコンパイルされたSmaliコードとコンポーネント遷移グラフを検査するAIエージェントと、標準および広く採用されているGUIファジィアによって到達不能なアクティビティへのアクセスを防止するアプリロジック内の不満足なアクティベーション条件に関する理由とから構成される。
そして、他のエージェントが、それらのアクティビティへの移行を成功させるために必要なアクティベーション条件を満たす動的インスツルメンテーションスクリプトを生成する。
既存のファジリングアプローチをフレームワークで強化することで,Fastbot,LLMDroid,その他のベースライン(それぞれ101.1%,116.3%,179.7%)に対するテストカバレッジが大幅に向上することがわかった。
CovAgentはクラス、メソッド、ラインカバレッジなど、他のメトリクスのベースラインよりも優れています。
また,エージェントアクティベーション条件推論精度やエージェント活動開始成功率などの自動アプリテスト分野におけるエージェントAIの有効性に関するさらなる知見を明らかにするために,CovAgent内のコンポーネントの調査も行っている。
関連論文リスト
- AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios [49.90735676070039]
持続時間と複雑さが増大するタスクを効果的に処理するAIエージェントの能力は、成長を続けている。
エージェントタスクの多様性に十分対処することなく,タスクの難易度の向上を優先している。
本稿では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するエージェントIF-OneDayを提案する。
論文 参考訳(メタデータ) (2026-01-28T13:49:18Z) - Mobile-Agent-RAG: Driving Smart Multi-Agent Coordination with Contextual Knowledge Empowerment for Long-Horizon Mobile Automation [57.12284831164602]
モバイルエージェントは膨大な可能性を示しているが、現在のSoTA(State-of-the-art)エージェントは、現実世界、長期的、クロスアプリケーションタスクに不適切な成功率を示す。
本稿では,新しい階層型マルチエージェントフレームワークであるMobile-Agent-RAGを提案する。
論文 参考訳(メタデータ) (2025-11-15T15:22:42Z) - Stop Wasting Your Tokens: Towards Efficient Runtime Multi-Agent Systems [11.42175340352007]
SupervisorAgentは、ランタイムと適応的な監視のための軽量でモジュール化されたフレームワークです。
SupervisorAgentは、エラーを積極的に修正し、非効率な振る舞いを誘導し、観察を浄化するために、臨界点に介入する。
挑戦的なGAIAベンチマークでは、SupervisorAgentは成功率を損なうことなく、Smolagentフレームワークのトークン消費を平均29.45%削減した。
論文 参考訳(メタデータ) (2025-10-30T15:12:59Z) - Effective and Stealthy One-Shot Jailbreaks on Deployed Mobile Vision-Language Agents [29.62914440645731]
アプリ内のプロンプトインジェクションを活用する一発のjailbreak攻撃を提示する。
悪意のあるアプリはUIテキストに短いプロンプトを埋め込むが、エージェントがADBを介してUIを駆動すると明らかになる。
当社のフレームワークは,(1)悪質なアプリへのペイロードをエージェントの視覚入力として注入する低プライバシー認識チェーンターゲティング,(2)物理的タッチ属性を用いてエージェントを識別し,エージェント操作時にのみペイロードを公開するタッチベーストリガ,(3)ステルス誘導された文字レベルのワンショットプロンプトエフェクト,の3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-10-09T05:34:57Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
スマートフォンエージェントは、ユーザーがデバイスを効率的に制御するのを助けるためにますます重要になっている。
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - AutoPenBench: Benchmarking Generative Agents for Penetration Testing [42.681170697805726]
本稿では,自動貫入試験における生成エージェント評価のためのオープンベンチマークであるAutoPenBenchを紹介する。
エージェントが攻撃しなければならない脆弱性のあるシステムを表す33のタスクを含む包括的フレームワークを提案する。
完全自律型と半自律型という2つのエージェントアーキテクチャをテストすることで,AutoPenBenchのメリットを示す。
論文 参考訳(メタデータ) (2024-10-04T08:24:15Z) - Autonomous Large Language Model Agents Enabling Intent-Driven Mobile GUI
Testing [17.24045904273874]
そこで我々は,Android用の自動GUIテストエージェントであるDroidAgentを提案する。
これはLarge Language Modelと、長期記憶や短期記憶などのサポートメカニズムに基づいている。
DroidAgentは61%のアクティビティカバレッジを達成したが、現在の最先端のGUIテスト技術では51%だった。
論文 参考訳(メタデータ) (2023-11-15T01:59:40Z) - Chatting with GPT-3 for Zero-Shot Human-Like Mobile Automated GUI
Testing [23.460051600514806]
GPTDroid を提案し,GUI ページ情報を LLM に渡してテストスクリプトを抽出することにより,大規模言語モデルにモバイルアプリとのチャットを依頼する。
そこで我々はGUIページの静的コンテキストと反復テストプロセスの動的コンテキストを抽出する。
Google Playの86のアプリ上でGPTDroidを評価し、そのアクティビティカバレッジは71%で、最高のベースラインよりも32%高く、最高のベースラインよりも高速で36%多くのバグを検出することができます。
論文 参考訳(メタデータ) (2023-05-16T13:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。