Fugu-MT 論文翻訳(概要): Seeing is Believing: Vision-driven Non-crash Functional Bug Detection for Mobile Apps

論文の概要: Seeing is Believing: Vision-driven Non-crash Functional Bug Detection for Mobile Apps

arxiv url: http://arxiv.org/abs/2407.03037v2
Date: Wed, 04 Dec 2024 08:00:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 21:42:00.290301
Title: Seeing is Believing: Vision-driven Non-crash Functional Bug Detection for Mobile Apps
Title（参考訳）: Seeing is Believing: モバイルアプリのためのビジョン駆動型非クラッシュ機能バグ検出
Authors: Zhe Liu, Cheng Li, Chunyang Chen, Junjie Wang, Mengzhuo Chen, Boyu Wu, Yawen Wang, Jun Hu, Qing Wang,
Abstract要約: 本稿では,非クラッシュな機能的バグを検出するための,視覚駆動型多エージェント協調GUIテスト手法を提案する。 590の非クラッシュバグに対してTridentを評価し,12のベースラインと比較したところ,平均リコールと精度が14%-112%,108%-147%向上した。
参考スコア（独自算出の注目度）: 26.96558418166514
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Mobile app GUI (Graphical User Interface) pages now contain rich visual information, with the visual semantics of each page helping users understand the application logic. However, these complex visual and functional logic present new challenges to software testing. Existing automated GUI testing methods, constrained by the lack of reliable testing oracles, are limited to detecting crash bugs with obvious abnormal signals. Consequently, many non-crash functional bugs, ranging from unexpected behaviors to logical errors, often evade detection by current techniques. While these non-crash functional bugs can exhibit visual cues that serve as potential testing oracles, they often entail a sequence of screenshots, and detecting them necessitates an understanding of the operational logic among GUI page transitions, which is challenging traditional techniques. Considering the remarkable performance of Multimodal Large Language Models (MLLM) in visual and language understanding, this paper proposes Trident, a novel vision-driven, multi-agent collaborative automated GUI testing approach for detecting non-crash functional bugs. It comprises three agents: Explorer, Monitor, and Detector, to guide the exploration, oversee the testing progress, and spot issues. We also address several challenges, i.e., align visual and textual information for MLLM input, achieve functionality-oriented exploration, and infer test oracles for non-crash bugs, to enhance the performance of functionality bug detection. We evaluate Trident on 590 non-crash bugs and compare it with 12 baselines, it can achieve more than 14%-112% and 108%-147% boost in average recall and precision compared with the best baseline. The ablation study further proves the contribution of each module. Moreover, Trident identifies 43 new bugs on Google Play, of which 31 have been fixed.
Abstract（参考訳）: モバイルアプリGUI (Graphical User Interface) ページにはリッチな視覚情報が含まれており、各ページの視覚的セマンティクスがアプリケーションロジックの理解に役立っている。しかし、これらの複雑な視覚的・機能的ロジックは、ソフトウェアテストに新たな課題をもたらす。既存の自動GUIテストメソッドは、信頼性の高いテストオラクルの欠如に制約されており、明らかな異常信号によるクラッシュバグの検出に制限されている。その結果、予期せぬ振る舞いから論理的エラーまで、多くの非クラッシュな機能的バグが、しばしば現在の技術による検出を回避している。これらの非クラッシュな機能的バグは、潜在的なテストオラクルとして機能する視覚的手がかりを示すことができるが、スクリーンショットのシーケンスを伴い、GUIページ遷移間の操作ロジックを理解する必要があることを検知する。本稿では,視覚および言語理解におけるMLLM(Multimodal Large Language Models)の顕著な性能を考慮し,非クラッシュな機能的バグを検出するための視覚駆動型多エージェント協調GUIテスト手法であるTridentを提案する。エクスプローラー、モニター、ディテクターの3つのエージェントからなり、探索を案内し、テストの進捗を監督し、問題を見つけ出す。また、MLLM入力のための視覚情報とテキスト情報の整列、機能指向探索の実現、非クラッシュバグに対するテストオーラクルの推論、機能バグ検出の性能向上など、いくつかの課題にも対処する。我々は590の非クラッシュバグに対してTridentを評価し、12のベースラインと比較し、最高のベースラインと比較して平均リコールと精度が14%-112%、そして108%-147%向上する。アブレーション研究は、各加群の寄与をさらに証明している。さらにTridentは、Google Playの43の新しいバグを特定し、そのうち31が修正されている。

関連論文リスト

Screencast-Based Analysis of User-Perceived GUI Responsiveness [53.53923672866705]
Toolsはモバイルのスクリーンキャストから直接GUIの応答性を測定するテクニックである。コンピュータービジョンを使ってユーザーインタラクションを検出し、フレームレベルの視覚変化を分析し、2つの重要なメトリクスを計算する。ツールはインダストリアルテストパイプラインにデプロイされ、毎日数千のスクリーンキャストを分析している。
論文参考訳（メタデータ） (2025-08-02T12:13:50Z)
BugScope: Learn to Find Bugs Like Human [9.05553442116139]
BugScopeは、人間の監査人が代表例から新しいバグパターンを学習し、コード監査中にその知識を適用する方法をエミュレートする。 BugScopeが87.04%の精度を達成したことを示す。 Linuxカーネルを含む大規模なオープンソースシステムのさらなるテストにより、これまで不明だった141のバグが明らかになった。
論文参考訳（メタデータ） (2025-07-21T14:34:01Z)
Hear Your Code Fail, Voice-Assisted Debugging for Python [0.0]
Pythonプラグインはサイレントエラーを実行可能な聴覚診断に変換する。システムは18%のCPUオーバーヘッドで1.2秒未満の音声レイテンシを実現する。 pyttsx3テキスト音声変換とTkinterベースのGUI視覚化を使用する。
論文参考訳（メタデータ） (2025-07-20T15:24:35Z)
OmniAD: Detect and Understand Industrial Anomaly via Multimodal Reasoning [76.90511414963265]
我々は,微粒化解析のための異常検出と理解を統一するフレームワークであるOmniADを紹介した。ビジュアル推論は、Text-as-Maskを活用することで詳細なインスペクションを提供する。 Visual Guided Textual Reasoningは、視覚知覚を統合することで包括的な分析を行う。
論文参考訳（メタデータ） (2025-05-28T07:02:15Z)
Forensics-Bench: A Comprehensive Forgery Detection Benchmark Suite for Large Vision Language Models [53.55128042938329]
Forensics-Benchは、新しい偽検出評価ベンチマークスイートである。 63,292件の厳密にキュレートされたマルチチョイスの視覚的質問からなり、112件の独特な偽造検出をカバーしている。 GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnetの22のオープンソースLVLMと3つのプロプライエタリモデルについて徹底的な評価を行った。
論文参考訳（メタデータ） (2025-03-19T09:21:44Z)
Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文参考訳（メタデータ） (2024-12-05T18:58:27Z)
ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。 256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文参考訳（メタデータ） (2024-11-26T14:29:47Z)
Leveraging Large Vision Language Model For Better Automatic Web GUI Testing [7.480576630392405]
本稿では,最初のLVLM駆動のエンドツーエンドWebテスト技術であるVETLを提案する。 LVLMのシーン理解機能により、VETLはローカルコンテキストに焦点を当てた有効な意味のあるテキスト入力を生成することができる。関連GUI要素の選択は視覚的質問応答問題として定式化され、LVLMは入力ボックスと関連する要素の間の論理的接続をキャプチャする。
論文参考訳（メタデータ） (2024-10-16T01:37:58Z)
GUI Action Narrator: Where and When Did That Action Take Place? [19.344324166716245]
我々は,4,189種類の動画キャプションサンプルからなるGUIアクションの動画キャプションベンチマークを開発した。本課題は,自然映像のキャプションに比較して,独特な課題を呈する。 GUI アクションデータセット textbfAct2Cap と GUI ビデオキャプションのためのシンプルなフレームワーク textbfGUI Narrator を紹介する。
論文参考訳（メタデータ） (2024-06-19T17:22:11Z)
VDebugger: Harnessing Execution Feedback for Debugging Visual Programs [103.61860743476933]
V Debuggerは、視覚プログラムのローカライズとデバッギングのために、段階的に実行を追跡することで訓練された、批評家とリファインダーのフレームワークである。 Vデバッガは、詳細な実行フィードバックを活用してプログラムエラーを特定し、修正する。 6つのデータセットの評価は、Vデバッガの有効性を示し、ダウンストリームタスクの精度が最大3.2%向上したことを示している。
論文参考訳（メタデータ） (2024-06-19T11:09:16Z)
GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文参考訳（メタデータ） (2024-06-17T08:30:55Z)
GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。各種GUIコンテンツの理解において,ImageLLMs や VideoLLMs などの最先端MLLMの能力を評価する。
論文参考訳（メタデータ） (2024-06-16T06:56:53Z)
Artificial intelligence for context-aware visual change detection in software test automation [5.174422378856116]
本稿では,ソフトウェアテスト自動化における視覚的変化検出のためのグラフベースの新しい手法を提案する。本手法は,ソフトウェアスクリーンショットからUI制御を正確に識別し,制御間の文脈的・空間的関係を表すグラフを構築する。様々な単純で複雑なテストシナリオにおいて、視覚的ソフトウェアの変更を正確に検出できる。
論文参考訳（メタデータ） (2024-05-01T21:22:33Z)
CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。 AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文参考訳（メタデータ） (2024-02-19T08:29:03Z)
SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large Language Models [61.8876114116716]
MLLM(Multimodal large language model)は、視覚関連タスクにおいて強力な機能を示す。しかし、顔攻撃検出タスクにおける微妙な視覚的偽造や偽造の手がかりを検出する能力は、まだ探索されていない。フェーススプーフィングと偽造検出のためのMLLM評価のためのベンチマークShiELDを導入する。
論文参考訳（メタデータ） (2024-02-06T17:31:36Z)
Make LLM a Testing Expert: Bringing Human-like Interaction to Mobile GUI Testing via Functionality-aware Decisions [23.460051600514806]
GPTDroidは、モバイルアプリ向けのQ&AベースのGUIテスティングフレームワークである。機能認識型メモリプロンプト機構を導入する。アクティビティのカバレッジが32%向上し、より高速な速度で31%のバグを検出する。
論文参考訳（メタデータ） (2023-10-24T12:30:26Z)
FacTool: Factuality Detection in Generative AI -- A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios [87.12753459582116]
より広い範囲のタスクは、生成モデルによって処理されると、事実エラーを含むリスクが増大する。大規模言語モデルにより生成されたテキストの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークであるFacToolを提案する。
論文参考訳（メタデータ） (2023-07-25T14:20:51Z)
Prompting Is All You Need: Automated Android Bug Replay with Large Language Models [28.69675481931385]
本稿では,バグ報告から迅速なエンジニアリングを通じてバグを自動的に再現する,新しい軽量なアプローチであるAdbGPTを提案する。 AdbGPTは、LLMから人間の知識と論理的推論を引き出すために、少数ショットの学習と連鎖推論を活用する。この評価は,253.6秒で81.3%のバグレポートを再現するAdbGPTの有効性と有効性を示すものである。
論文参考訳（メタデータ） (2023-06-03T03:03:52Z)
Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文参考訳（メタデータ） (2023-05-29T17:50:33Z)
Chatting with GPT-3 for Zero-Shot Human-Like Mobile Automated GUI Testing [23.460051600514806]
GPTDroid を提案し,GUI ページ情報を LLM に渡してテストスクリプトを抽出することにより,大規模言語モデルにモバイルアプリとのチャットを依頼する。そこで我々はGUIページの静的コンテキストと反復テストプロセスの動的コンテキストを抽出する。 Google Playの86のアプリ上でGPTDroidを評価し、そのアクティビティカバレッジは71%で、最高のベースラインよりも32%高く、最高のベースラインよりも高速で36%多くのバグを検出することができます。
論文参考訳（メタデータ） (2023-05-16T13:46:52Z)
ADPTriage: Approximate Dynamic Programming for Bug Triage [0.0]
オンラインバグトリアージタスクのためのマルコフ決定プロセス(MDP)モデルを開発した。私たちはADPTriageと呼ばれるADPベースのバグトリアージソリューションを提供しています。以上の結果から, 代入精度と固定時間の観点から, ミオピックアプローチよりも有意な改善が見られた。
論文参考訳（メタデータ） (2022-11-02T04:42:21Z)
Infrared: A Meta Bug Detector [10.541969253100815]
我々はメタバグ検出と呼ばれる新しいアプローチを提案し、既存の学習ベースのバグ検出よりも3つの重要な利点を提供している。我々のメタバグ検出装置(MBD)は,ヌルポインタの参照,配列インデックスのアウト・オブ・バウンド,ファイルハンドルのリーク,さらには並列プログラムにおけるデータ競合など,さまざまなバグの発見に有効であることを示す。
論文参考訳（メタデータ） (2022-09-18T09:08:51Z)
Continual Object Detection via Prototypical Task Correlation Guided Gating Mechanism [120.1998866178014]
pRotOtypeal taSk corrElaTion guided gaTingAnism (ROSETTA)による連続物体検出のためのフレキシブルなフレームワークを提案する。具体的には、統一されたフレームワークはすべてのタスクで共有され、タスク対応ゲートは特定のタスクのサブモデルを自動的に選択するために導入されます。 COCO-VOC、KITTI-Kitchen、VOCのクラスインクリメンタル検出、および4つのタスクの逐次学習の実験により、ROSETTAが最先端のパフォーマンスを得ることが示された。
論文参考訳（メタデータ） (2022-05-06T07:31:28Z)
Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。 CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文参考訳（メタデータ） (2020-05-08T15:48:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。