論文の概要: From Exploration to Specification: LLM-Based Property Generation for Mobile App Testing
- arxiv url: http://arxiv.org/abs/2604.13463v1
- Date: Wed, 15 Apr 2026 04:33:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.379637
- Title: From Exploration to Specification: LLM-Based Property Generation for Mobile App Testing
- Title(参考訳): 探索から仕様へ - モバイルアプリテストのためのLLMベースのプロパティ生成
- Authors: Yiheng Xiong, Shiwen Song, Bo Ma, Ting Su, Xiaofei Xie,
- Abstract要約: PropGenは、Androidアプリのプロパティを生成するための自動アプローチである。
PropGenは有効なアプリ機能を特定し、実行し、有効なプロパティを生成し、ほとんどの不正確な機能を修復する。
対象アプリの最新バージョンでは,これまで未知の機能的バグが25件見つかった。
- 参考スコア(独自算出の注目度): 15.240612891177884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile apps often suffer from functional bugs that do not cause crashes but instead manifest as incorrect behaviors under specific user interactions. Such bugs are difficult to detect automatically because they often lack explicit test oracles. Property-based testing can effectively expose them by checking intended behavioral properties under diverse interactions. However, its use largely depends on manually written properties, whose construction is difficult and expensive, limiting its practical use for mobile apps. To address this limitation, we propose PropGen, an automated approach for generating properties for Android apps. However, this task is challenging for two reasons: app functionalities are often hard to systematically uncover and execute, and properties are difficult to derive accurately from observed behaviors. To this end, PropGen performs functionality-guided exploration to collect behavioral evidence from app executions, synthesizes properties from the collected evidence, and refines imprecise properties based on testing feedback. We implemented PropGen and evaluated it on 12 real-world Android apps. The results show that PropGen can effectively identify and execute valid app functionalities, generate valid properties, and repair most imprecise ones. Across all apps, PropGen identified 1,210 valid functionalities and correctly executed 977 of them, compared with 491 and 187 for the baseline. It generated 985 properties, 912 of which were valid, and repaired 118 of 127 imprecise ones exposed during testing. With the resulting properties, we found 25 previously unknown functional bugs in the latest versions of the subject apps, many of which were missed by existing functional testing techniques.
- Abstract(参考訳): モバイルアプリは、クラッシュを起こさない機能的なバグに悩まされることが多い。
このようなバグは、明示的なテストオラクルが欠如しているため、自動検出が難しい。
プロパティベースのテストは、様々な相互作用の下で意図された振る舞い特性をチェックすることによって、効果的にそれらを公開することができる。
しかし、その用途は手書きの物件に大きく依存しており、その建設は困難で高価であり、モバイルアプリの実用的利用を制限している。
この制限に対処するため、Androidアプリのプロパティを生成するための自動アプローチであるPropGenを提案する。
しかし、このタスクは2つの理由から難しい。アプリケーションの機能はしばしば体系的に発見し実行することが困難であり、プロパティは観察された振る舞いから正確に導出することが困難である。
この目的のために、PropGenは機能誘導探索を行い、アプリの実行から行動証拠を収集し、収集したエビデンスからプロパティを合成し、テストフィードバックに基づいて不正確なプロパティを洗練する。
PropGenを実装し、12の現実世界のAndroidアプリで評価しました。
結果は、PropGenが有効なアプリケーション機能を特定し、実行し、有効なプロパティを生成し、ほとんどの不正確な機能を修復できることを示している。
すべてのアプリにおいて、PropGenは1,210の有効な機能を特定し、その中の977を正しく実行した。
985のプロパティを生成し、そのうち912は有効であり、テスト中に露出した127件のうち118件を修復した。
結果として得られた特性により、対象アプリの最新バージョンで、これまで不明だった25の機能的バグが見つかりました。
関連論文リスト
- Do Phone-Use Agents Respect Your Privacy? [97.81424230136075]
我々は,モバイルエージェントのプライバシ行動を評価するための検証可能なフレームワークであるMyPhoneBenchを紹介する。
プライバシを無視する電話を、最小限のプライバシ契約によって許可されたアクセス、最小限の開示、およびユーザ制御メモリとして運用する。
10のモバイルアプリと300のタスクで5つのフロンティアモデルにまたがって、タスクの成功、プライバシに準拠したタスク補完、保存された好みの後での利用が、それぞれ異なる機能であることに気付きました。
論文 参考訳(メタデータ) (2026-04-01T14:50:50Z) - FuncDroid: Towards Inter-Functional Flows for Comprehensive Mobile App GUI Testing [6.346121677855558]
本稿では,正確なモデル構築と深いバグ検出という2つの目標を掲げた,関数型フロー指向GUIテスト手法を提案する。
2つの相補的なテスト生成ビューを組み合わせることで、機能境界を適応的に洗練し、機能間フローを体系的に探索することができる。
このアプローチをFuncDroidというツールに実装し、2つのベンチマークで評価します。(1)再現可能な50のクラッシュバグを備えた、広く使われているオープンソースベンチマーク、(2)52の人気のある商用アプリの多種多様なセットです。
論文 参考訳(メタデータ) (2026-02-13T11:40:02Z) - A Study of Using Multimodal LLMs for Non-Crash Functional Bug Detection in Android Apps [6.490384059173902]
本研究は,Androidアプリの非クラッシュ機能(NCF)バグを検出するために,大規模言語モデル(LLM)をオーラクルとして活用する能力を実証的に検討する。
71のNCFバグに対して,AndroidアプリのNCFバグ検出におけるLCMsの有効性を検討するための総合的研究を行った。
64のAndroidアプリで24の既知のNCFバグを検出し、そのうち4つのバグが確認または修正されました。
論文 参考訳(メタデータ) (2024-07-26T19:18:35Z) - Same App, Different Behaviors: Uncovering Device-specific Behaviors in Android Apps [16.015694809763538]
実世界のAndroidアプリにおいて,デバイス固有の動作に関する大規模な実証的研究を行った。
デバイス固有の行動の分布を調べることで、中国のサードパーティアプリマーケット内のアプリが、Google Playのアプリに比べて、より関連性の高い行動を示すことが明らかになった。
問題修正や機能適応といった一般的な行動以外にも、何百万ダウンロードという人気アプリを含む33のアグレッシブなアプリを観察しました。
論文 参考訳(メタデータ) (2024-06-14T07:58:22Z) - GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。
TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。
評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文 参考訳(メタデータ) (2024-02-09T00:34:39Z) - Multi-Objective Improvement of Android Applications [10.660480034605243]
7つのAndroidアプリの21バージョンのテストを書き、パフォーマンス改善のための新しいベンチマークを作成しました。
我々は、改良されたソフトウェアを見つけるために、ソフトウェア変種の範囲をナビゲートする検索ベースの技術である、遺伝的改善を使用している。
これらのアプリでは、実行時間を最大35%改善し、メモリ使用量を最大33%改善しました。
論文 参考訳(メタデータ) (2023-08-22T12:26:43Z) - A statistical approach for finding property-access errors [2.4171019220503402]
オブジェクトが固定レイアウトを持たないJavaScriptで不正確なプロパティアクセスを見つける問題について検討する。
既存のプロパティを参照することはJavaScriptのエラーではないため、既存のプロパティへの偶発的なアクセスは検出されない。
そこで本稿では,プロパティアクセスの誤りを観測結果に基づいて検出する2段階の手法を提案する。
論文 参考訳(メタデータ) (2023-06-14T20:50:12Z) - Emerging App Issue Identification via Online Joint Sentiment-Topic
Tracing [66.57888248681303]
本稿では,MERITという新しい問題検出手法を提案する。
AOBSTモデルに基づいて、1つのアプリバージョンに対するユーザレビューに否定的に反映されたトピックを推測する。
Google PlayやAppleのApp Storeで人気のアプリに対する実験は、MERITの有効性を実証している。
論文 参考訳(メタデータ) (2020-08-23T06:34:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。