論文の概要: Enhancing LLM-Based Bug Reproduction for Android Apps via Pre-Assessment of Visual Effects
- arxiv url: http://arxiv.org/abs/2603.29623v1
- Date: Tue, 31 Mar 2026 11:44:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.582874
- Title: Enhancing LLM-Based Bug Reproduction for Android Apps via Pre-Assessment of Visual Effects
- Title(参考訳): 視覚効果の事前評価によるLLMベースのAndroidアプリ用バグ再現の強化
- Authors: Xiangyang Xiao, Huaxun Huang, Rongxin Wu,
- Abstract要約: 大規模言語モデル(LLM)は、テキストと視覚のセマンティクスを理解する際、顕著な能力を示している。
本研究では,現在のUIページ上で可能なすべてのUIアクションを探索中に実行し,対応する視覚効果を記録し,それらの視覚的手がかりを利用して,バグを再現する可能性のあるUIアクションを選択する。
LTGDroidは87.51%の再生成功率を達成し、最先端のベースラインを49.16%、556.30%改善し、平均20.45分と0.27ドルを要した。
- 参考スコア(独自算出の注目度): 1.5924281804465255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the development and maintenance of Android apps, the quick and accurate reproduction of user-reported bugs is crucial to ensure application quality and improve user satisfaction. However, this process is often time-consuming and complex. Therefore, there is a need for an automated approach that can explore the Application Under Test (AUT) and identify the correct sequence of User Interface (UI) actions required to reproduce a bug, given only a complete bug report. Large Language Models (LLMs) have shown remarkable capabilities in understanding textual and visual semantics, making them a promising tool for planning UI actions. Nevertheless, our study shows that even when using state-of-the-art LLM-based approaches, these methods still struggle to follow detailed bug reproduction instructions and replan based on new information, due to their inability to accurately predict and interpret the visual effects of UI components. To address these limitations, we propose LTGDroid. Our insight is to execute all possible UI actions on the current UI page during exploration, record their corresponding visual effects, and leverage these visual cues to guide the LLM in selecting UI actions that are likely to reproduce the bug. We evaluated LTGDroid, instantiated with GPT-4.1, on a benchmark consisting of 75 bug reports from 45 popular Android apps. The results show that LTGDroid achieves a reproduction success rate of 87.51%, improving over the state-of-the-art baselines by 49.16% and 556.30%, while requiring an average of 20.45 minutes and approximately $0.27 to successfully reproduce a bug. The LTGDroid implementation is publicly available at https://github.com/N3onFlux/LTGDroid.
- Abstract(参考訳): Androidアプリの開発とメンテナンスにおいて、ユーザ報告されたバグの迅速かつ正確な再現は、アプリケーション品質の確保とユーザ満足度の向上に不可欠である。
しかし、このプロセスは時間がかかり複雑であることが多い。
したがって、完全なバグレポートのみを前提として、アプリケーション・アンダー・テスト(AUT)を探索し、バグを再現するために必要なユーザー・インタフェース(UI)アクションの正しいシーケンスを特定できる自動化されたアプローチが必要である。
大規模言語モデル(LLM)は、テキストとビジュアルセマンティクスを理解する際、顕著な能力を示しており、UIアクションを計画するための有望なツールとなっている。
しかし,本研究では,最新のLCMベースのアプローチを用いても,UIコンポーネントの視覚的効果を正確に予測・解釈できないため,新たな情報に基づく詳細なバグ再現命令やリプランの追跡に苦慮していることを示す。
これらの制約に対処するため,我々はLTGDroidを提案する。
私たちの洞察は、探索中に現在のUIページで可能なすべてのUIアクションを実行し、対応する視覚効果を記録し、これらの視覚的手がかりを活用して、バグを再現する可能性のあるUIアクションを選択するためのLLMをガイドすることにあります。
GPT-4.1でインスタンス化したLTGDroidを、45のAndroidアプリから75のバグレポートからなるベンチマークで評価した。
その結果、LTGDroidは87.51%の再生成功率を達成し、最先端のベースラインを49.16%、そして556.30%改善し、平均20.45分と約0.27ドルを要した。
LTGDroidの実装はhttps://github.com/N3onFlux/LTGDroidで公開されている。
関連論文リスト
- UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning [51.54456545661045]
本稿では,インストラクション・アズ・ア・推論(Instruction-as-Reasoning)パラダイムを導入し,インストラクションを動的解析経路として扱う。
これを実現するために,教師付き微調整と強化学習という2段階のトレーニングフレームワークを提案する。
得られたモデルであるUI-Ins-7BとUI-Ins-32Bは、5つの挑戦的なグラウンドベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-10-23T07:18:32Z) - Screencast-Based Analysis of User-Perceived GUI Responsiveness [53.53923672866705]
Toolsはモバイルのスクリーンキャストから直接GUIの応答性を測定するテクニックである。
コンピュータービジョンを使ってユーザーインタラクションを検出し、フレームレベルの視覚変化を分析し、2つの重要なメトリクスを計算する。
ツールはインダストリアルテストパイプラインにデプロイされ、毎日数千のスクリーンキャストを分析している。
論文 参考訳(メタデータ) (2025-08-02T12:13:50Z) - BugRepro: Enhancing Android Bug Reproduction with Domain-Specific Knowledge Integration [4.833035081314386]
BugReproは、バグ再現の正確性と効率を高めるために、ドメイン固有の知識を統合する新しいテクニックである。
BugReproは2つの最先端メソッドを著しく上回っている。
論文 参考訳(メタデータ) (2025-05-20T15:48:34Z) - AutoGUI: Scaling GUI Grounding with Automatic Functionality Annotations from LLMs [54.58905728115257]
そこで本稿では,UI要素に詳細な機能記述を自動アノテートする textbfAutoGUI パイプラインを提案する。
提案したパイプラインを用いて高品質なAutoGUI-704kデータセットを構築し,多種多様な機能アノテーションを特徴とする。
我々のデータセットは、VLMのUIグラウンド機能を大幅に強化し、大きなスケーリング効果を示す。
論文 参考訳(メタデータ) (2025-02-04T03:39:59Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Make LLM a Testing Expert: Bringing Human-like Interaction to Mobile GUI
Testing via Functionality-aware Decisions [23.460051600514806]
GPTDroidは、モバイルアプリ向けのQ&AベースのGUIテスティングフレームワークである。
機能認識型メモリプロンプト機構を導入する。
アクティビティのカバレッジが32%向上し、より高速な速度で31%のバグを検出する。
論文 参考訳(メタデータ) (2023-10-24T12:30:26Z) - RankVicuna: Zero-Shot Listwise Document Reranking with Open-Source Large
Language Models [56.51705482912727]
ゼロショット設定で高品質なリストワイドのランク付けを行うことができる初の完全オープンソースLCMである RankVicuna を提示する。
TREC 2019と2020 Deep Learning Tracksの実験結果から,GPT-4のゼロショットリランクに匹敵する効果が得られ,GPT-3.5よりもはるかに小さい7Bパラメータモデルが得られた。
論文 参考訳(メタデータ) (2023-09-26T17:31:57Z) - Prompting Is All You Need: Automated Android Bug Replay with Large Language Models [28.69675481931385]
本稿では,バグ報告から迅速なエンジニアリングを通じてバグを自動的に再現する,新しい軽量なアプローチであるAdbGPTを提案する。
AdbGPTは、LLMから人間の知識と論理的推論を引き出すために、少数ショットの学習と連鎖推論を活用する。
この評価は,253.6秒で81.3%のバグレポートを再現するAdbGPTの有効性と有効性を示すものである。
論文 参考訳(メタデータ) (2023-06-03T03:03:52Z) - Chatting with GPT-3 for Zero-Shot Human-Like Mobile Automated GUI
Testing [23.460051600514806]
GPTDroid を提案し,GUI ページ情報を LLM に渡してテストスクリプトを抽出することにより,大規模言語モデルにモバイルアプリとのチャットを依頼する。
そこで我々はGUIページの静的コンテキストと反復テストプロセスの動的コンテキストを抽出する。
Google Playの86のアプリ上でGPTDroidを評価し、そのアクティビティカバレッジは71%で、最高のベースラインよりも32%高く、最高のベースラインよりも高速で36%多くのバグを検出することができます。
論文 参考訳(メタデータ) (2023-05-16T13:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。