論文の概要: FuncDroid: Towards Inter-Functional Flows for Comprehensive Mobile App GUI Testing
- arxiv url: http://arxiv.org/abs/2602.12834v1
- Date: Fri, 13 Feb 2026 11:40:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.935925
- Title: FuncDroid: Towards Inter-Functional Flows for Comprehensive Mobile App GUI Testing
- Title(参考訳): FuncDroid: 総合的なモバイルアプリGUIテストのためのファンクション間フローを目指して
- Authors: Jinlong He, Changwei Xia, Binru Huang, Jiwei Yan, Jun Yan, Jian Zhang,
- Abstract要約: 本稿では,正確なモデル構築と深いバグ検出という2つの目標を掲げた,関数型フロー指向GUIテスト手法を提案する。
2つの相補的なテスト生成ビューを組み合わせることで、機能境界を適応的に洗練し、機能間フローを体系的に探索することができる。
このアプローチをFuncDroidというツールに実装し、2つのベンチマークで評価します。(1)再現可能な50のクラッシュバグを備えた、広く使われているオープンソースベンチマーク、(2)52の人気のある商用アプリの多種多様なセットです。
- 参考スコア(独自算出の注目度): 6.346121677855558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As mobile application (app) functionalities grow increasingly complex and their iterations accelerate, ensuring high reliability presents significant challenges. While functionality-oriented GUI testing has attracted growing research attention, existing approaches largely overlook interactions across functionalities, making them ineffective at uncovering deep bugs hidden in inter-functional behaviors. To fill this gap, we first design a Functional Flow Graph (FFG), a behavioral model that explicitly captures an app's functional units and their inter-functional interactions. Based on the FFG, we further introduce an inter-functional-flow-oriented GUI testing approach with the dual goals of precise model construction and deep bug detection. This approach is realized through a long-short-term-view-guided testing process. By combining two complementary test-generation views, it can adaptively refine functional boundaries and systematically explore inter-functional flows under diverse triggering conditions. We implement our approach in a tool called FuncDroid, and evaluate it on two benchmarks: (1) a widely-used open-source benchmark with 50 reproducible crash bugs and (2) a diverse set of 52 popular commercial apps. Experimental results demonstrate that FuncDroid significantly outperforms state-of-the-art baselines in both coverage (+28%) and bug detection number (+107%). Moreover, FuncDroid successfully uncovers 18 previously unknown non-crash functional bugs in commercial apps, confirming its practical effectiveness.
- Abstract(参考訳): モバイルアプリケーション(アプリケーション)機能が複雑化し、イテレーションが加速するにつれて、高い信頼性が大きな課題を生じさせます。
機能指向のGUIテストは研究の注目を集めているが、既存のアプローチは機能間の相互作用を概ね見落としており、機能間動作に隠された深いバグを明らかにするのに効果がない。
このギャップを埋めるために、私たちはまず、アプリの機能ユニットとその機能間相互作用を明示的にキャプチャする行動モデルであるFunctional Flow Graph(FFG)を設計する。
さらに、FFGに基づいて、正確なモデル構築と深いバグ検出という2つの目標を持つ機能間フロー指向GUIテスト手法を導入する。
このアプローチは、長時間のビュー誘導テストプロセスを通じて実現される。
2つの相補的なテスト生成ビューを組み合わせることで、機能境界を適応的に洗練し、多様なトリガー条件下で機能間フローを体系的に探索することができる。
このアプローチをFuncDroidというツールに実装し、2つのベンチマークで評価します。(1)再現可能な50のクラッシュバグを備えた、広く使われているオープンソースベンチマーク、(2)52の人気のある商用アプリの多種多様なセットです。
実験の結果,FuncDroidは,カバレッジ(+28%)とバグ検出(+107%)の両方において,最先端のベースラインを著しく上回ることがわかった。
さらに、FuncDroidは18の既知の非クラッシュ機能バグを商業アプリケーションで発見し、その実用性を確認した。
関連論文リスト
- ColorBench: Benchmarking Mobile Agents with Graph-Structured Framework for Complex Long-Horizon Tasks [37.79008306764891]
実世界のタスクは複雑で、複数の有効なソリューションが可能である。
オフラインベンチマークは、1つの事前定義された"ゴールドパス"のみを検証することができる
オンライン動的テストは、実際のデバイスの複雑さと非再現性によって制約される。
本稿では,新しいグラフ構造化ベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-16T12:30:05Z) - TaskAudit: Detecting Functiona11ity Errors in Mobile Apps via Agentic Task Execution [17.208420259998178]
TaskAuditは、シミュレーションインタラクションによる関数a11ityエラーの検出に焦点を当てたアクセシビリティ評価システムである。
実世界のアプリ評価では,54のアプリ画面から48のファンクタ11ityエラーを検出する方法が,既存のチェッカーでは4~20であるのに対し,我々の戦略は48のファンクタ11ityエラーを検出する。
論文 参考訳(メタデータ) (2025-10-14T20:28:49Z) - FAME: Adaptive Functional Attention with Expert Routing for Function-on-Function Regression [15.00767095565706]
FAME(Functional Attention with a Mixture-of-Experts)は、関数・オン・ファンクションの回帰のためのエンドツーエンドの完全なデータ駆動フレームワークである。
FAMEは、神経制御微分方程式とMoE駆動ベクトル場を結合して機能的連続性を捉えることで連続的な注意を形成する。
合成および実世界の汎関数回帰ベンチマークの実験により、FAMEは任意のサンプリングされた離散観測に対して、最先端の精度、強い堅牢性を達成することが示された。
論文 参考訳(メタデータ) (2025-10-01T07:53:55Z) - Breaking Single-Tester Limits: Multi-Agent LLMs for Multi-User Feature Testing [15.383375235673954]
アプリケーション機能テストのためのマルチユーザ対話タスクを自動化するために,LLM(Large Language Models)を利用した新しいマルチエージェントアプローチであるMAdroidを提案する。
具体的には、MAdroidは、ユーザエージェント(オペレータ)とスーパーバイザーエージェント(コーディネータとオブザーバ)の2つの機能タイプを採用している。
マルチユーザ対話型タスク41件を含む評価は,96.8%の動作類似性を有するタスクの82.9%を達成し,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2025-06-21T01:38:53Z) - Learning Auxiliary Tasks Improves Reference-Free Hallucination Detection in Open-Domain Long-Form Generation [78.78421340836915]
オープンドメイン長文応答における参照なし幻覚検出を系統的に検討する。
その結果,内的状態は事実と幻覚的内容とを確実に区別するには不十分であることが判明した。
RATE-FTと呼ばれる新しいパラダイムを導入し、モデルが幻覚検出のメインタスクと共同で学習するための補助的なタスクで微調整を強化する。
論文 参考訳(メタデータ) (2025-05-18T07:10:03Z) - Magnet: Multi-turn Tool-use Data Synthesis and Distillation via Graph Translation [85.68881632498909]
本稿では,大規模言語モデルエージェントのための高品質なトレーニングトラジェクトリを合成するための原則的フレームワークを提案する。
このフレームワークは、関数シグネチャパスからクエリのシーケンスと実行可能な関数呼び出しへの自動的で反復的な変換に基づいている。
実験の結果,14BモデルであるMagnetic-14B-mDPOでは,BFCL-v3では68.01,ToolQueryでは73.30が得られた。
論文 参考訳(メタデータ) (2025-03-10T20:13:07Z) - AppAgent v2: Advanced Agent for Flexible Mobile Interactions [57.98933460388985]
本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。
我々のエージェントは、様々なアプリケーションにまたがる適応性を高めるフレキシブルなアクション空間を構築する。
本研究は,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。
論文 参考訳(メタデータ) (2024-08-05T06:31:39Z) - Seeing is Believing: Vision-driven Non-crash Functional Bug Detection for Mobile Apps [26.96558418166514]
本稿では,非クラッシュな機能的バグを検出するための,視覚駆動型多エージェント協調GUIテスト手法を提案する。
590の非クラッシュバグに対してTridentを評価し,12のベースラインと比較したところ,平均リコールと精度が14%-112%,108%-147%向上した。
論文 参考訳(メタデータ) (2024-07-03T11:58:09Z) - Glance and Gaze: Inferring Action-aware Points for One-Stage
Human-Object Interaction Detection [81.32280287658486]
Glance and Gaze Network(GGNet)と呼ばれる新しいワンステージ手法を提案する。
GGNetは、一組のアクションウェアポイント(ActPoints)を目視および視線ステップで適応的にモデル化する。
検出された各インタラクションと関連する人間と対象のペアを効果的に一致させるアクションアウェア・アプローチを設計します。
論文 参考訳(メタデータ) (2021-04-12T08:01:04Z) - FastIF: Scalable Influence Functions for Efficient Model Interpretation
and Debugging [112.19994766375231]
影響関数は、テスト予測のためのトレーニングデータポイントの「影響」を近似する。
fastifは、実行時間を大幅に改善する関数に影響を与えるための、単純な修正セットです。
本実験はモデル解釈とモデル誤差の修正における影響関数の可能性を示す。
論文 参考訳(メタデータ) (2020-12-31T18:02:34Z) - FIVES: Feature Interaction Via Edge Search for Large-Scale Tabular Data [106.76845921324704]
本稿では,FIVES (Feature Interaction Via Edge Search) という新しい手法を提案する。
FIVESは、定義された特徴グラフ上のエッジを探すために、インタラクティブな特徴生成のタスクを定式化する。
本稿では,対話的特徴の探索を動機づける理論的証拠を提示する。
論文 参考訳(メタデータ) (2020-07-29T03:33:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。