Fugu-MT 論文翻訳(概要): Effective, Platform-Independent GUI Testing via Image Embedding and Reinforcement Learning

論文の概要: Effective, Platform-Independent GUI Testing via Image Embedding and Reinforcement Learning

arxiv url: http://arxiv.org/abs/2208.09116v2
Date: Wed, 12 Jun 2024 15:56:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-14 02:02:19.045359
Title: Effective, Platform-Independent GUI Testing via Image Embedding and Reinforcement Learning
Title（参考訳）: 画像埋め込みと強化学習による効果的なプラットフォームに依存しないGUIテスト
Authors: Shengcheng Yu, Chunrong Fang, Xin Li, Yuchen Ling, Zhenyu Chen, Zhendong Su,
Abstract要約: アプリケーションテストに有効なプラットフォームに依存しないアプローチであるPIRLTestを提案する。コンピュータビジョンと強化学習技術を利用して、新しいシナジスティックな方法で自動テストを行う。 PILTestは、Q-networkを使用して特定の状態-アクションペアの値を見積もる好奇心駆動型戦略のガイダンスで、アプリを探索する。
参考スコア（独自算出の注目度）: 15.458315113767686
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Software applications have been playing an increasingly important role in various aspects of society. In particular, mobile apps and web apps are the most prevalent among all applications and are widely used in various industries as well as in people's daily lives. To help ensure mobile and web app quality, many approaches have been introduced to improve app GUI testing via automated exploration. Despite the extensive effort, existing approaches are still limited in reaching high code coverage, constructing high-quality models, and being generally applicable. Reinforcement learning-based approaches are faced with difficult challenges, including effective app state abstraction, reward function design, etc. Moreover, they heavily depend on the specific execution platforms, thus leading to poor generalizability and being unable to adapt to different platforms. We propose PIRLTest, an effective platform-independent approach for app testing. It utilizes computer vision and reinforcement learning techniques in a novel, synergistic manner for automated testing. It extracts the GUI widgets from GUI pages and characterizes the corresponding GUI layouts, embedding the GUI pages as states. The app GUI state combines the macroscopic perspective and the microscopic perspective, and attaches the critical semantic information from GUI images. This enables PIRLTest to be platform-independent and makes the testing approach generally applicable on different platforms. PIRLTest explores apps with the guidance of a curiosity-driven strategy, which uses a Q-network to estimate the values of specific state-action pairs to encourage more exploration in uncovered pages without platform dependency. The exploration will be assigned with rewards for all actions, which are designed considering both the app GUI states and the concrete widgets, to help the framework explore more uncovered pages.
Abstract（参考訳）: ソフトウェアアプリケーションは、社会の様々な側面において、ますます重要な役割を担っている。特に、モバイルアプリとWebアプリは、すべてのアプリケーションの中で最も広く使われており、様々な産業や人々の日常生活で広く使われている。モバイルおよびWebアプリの品質を保証するため、自動探索によるアプリGUIテストを改善するために、多くのアプローチが導入されている。大規模な努力にもかかわらず、既存のアプローチは依然として、高いコードカバレッジ、高品質なモデルの構築、そして一般的に適用可能なものに制限されている。強化学習ベースのアプローチは、効果的なアプリ状態抽象化や報酬関数設計など、困難な課題に直面しています。さらに、それらは特定の実行プラットフォームに大きく依存しているため、一般化性が低く、異なるプラットフォームに適応できない。アプリケーションテストに有効なプラットフォームに依存しないアプローチであるPIRLTestを提案する。コンピュータビジョンと強化学習技術を利用して、新しいシナジスティックな方法で自動テストを行う。 GUIページからGUIウィジェットを抽出し、対応するGUIレイアウトを特徴付け、GUIページを状態として埋め込む。アプリGUI状態は、マクロ的な視点と顕微鏡的な視点を組み合わせて、GUI画像から重要な意味情報を付加する。これにより、PIRLTestはプラットフォームに依存しないものになる。 PIRLTestは好奇心駆動型戦略のガイダンスでアプリを探索する。Q-networkを使用して、特定の状態-作用ペアの値を推定し、プラットフォームに依存しない未発見ページの探索を促進する。調査には、アプリケーションGUI状態と具体的なウィジェットの両方を考慮して設計されたすべてのアクションに対する報酬が割り当てられ、フレームワークがより発見されていないページを探索するのに役立つ。

関連論文リスト

GUI-ReRank: Enhancing GUI Retrieval with Multi-Modal LLM-based Reranking [55.762798168494726]
GUI-ReRankは、高速な埋め込みに基づく制約付き検索モデルと、非常に効果的なMLLMベースのリグレード技術を統合する新しいフレームワークである。提案手法を確立されたNLベースのGUI検索ベンチマークで評価した。
論文参考訳（メタデータ） (2025-08-05T10:17:38Z)
GTA1: GUI Test-time Scaling Agent [77.60727242084971]
本稿ではGUIテストタイムスケーリングエージェントGTA1の2つの課題について検討する。まず、最も適切なアクション提案を選択するために、テスト時間スケーリング手法を提案する。第2に、選択したアクション提案を対応する視覚要素にグラウンドする際の精度の向上を実現するモデルを提案する。
論文参考訳（メタデータ） (2025-07-08T08:52:18Z)
MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。 GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文参考訳（メタデータ） (2025-07-08T07:07:53Z)
GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent [66.34801160469067]
MLLMはUIコンポーネントの誤解釈と古い知識の2つの大きな問題に悩まされている。本稿では,2つの基本的なメカニズムを組み込んだトレーニング不要なGUIエージェントであるGUI-Explorerを提案する。 SPA-Benchでは53.7%、AndroidWorldでは47.4%のタスク成功率で、GUI-ExplorerはSOTAエージェントよりも大幅に改善されている。
論文参考訳（メタデータ） (2025-05-22T16:01:06Z)
ScreenSpot-Pro: GUI Grounding for Professional High-Resolution Computer Use [47.568491119335924]
ScreenSpot-Proは,MLLMの高精細度プロセッティングにおける接地性能を厳格に評価するために設計された新しいベンチマークである。このベンチマークは、専門家アノテーションを持つさまざまな専門家ドメインの本物の高解像度画像を含む。本稿では,強力なプランナーのGUI知識を活かしたビジュアル検索手法であるScreenSeekeRを提案する。
論文参考訳（メタデータ） (2025-04-04T14:25:17Z)
GUI-Bee: Align GUI Action Grounding to Novel Environments via Autonomous Exploration [56.58744345634623]
MLLMをベースとした自律エージェントGUI-Beeを提案する。 NovelScreenSpotも導入しています。これはGUIアクショングラウンドモデルと新しい環境との整合性をテストするためのベンチマークです。
論文参考訳（メタデータ） (2025-01-23T18:16:21Z)
UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。 OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文参考訳（メタデータ） (2025-01-21T17:48:10Z)
GUI Testing Arena: A Unified Benchmark for Advancing Autonomous GUI Testing Agent [24.97846085313314]
自動GUIテストのプロセス全体を評価するための,形式化された総合的な環境を提案する。テストプロセスは、テスト意図の生成、テストタスクの実行、GUI欠陥検出という、3つの重要なサブタスクに分割します。実際のモバイルアプリケーション、人工的に注入された欠陥を持つモバイルアプリケーション、合成データという3つのデータタイプを使用して、異なるモデルの性能を評価する。
論文参考訳（メタデータ） (2024-12-24T13:41:47Z)
GUI Agents: A Survey [129.94551809688377]
グラフィカルユーザインタフェース(GUI)エージェントは、人間とコンピュータのインタラクションを自動化するためのトランスフォーメーションアプローチとして登場した。 GUIエージェントの関心の高まりと基本的な重要性により、ベンチマーク、評価指標、アーキテクチャ、トレーニングメソッドを分類する総合的な調査を提供する。
論文参考訳（メタデータ） (2024-12-18T04:48:28Z)
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文参考訳（メタデータ） (2024-12-05T18:58:26Z)
Ponder & Press: Advancing Visual GUI Agent towards General Computer Control [13.39115823642937]
Ponder & Press(ポンダー・アンド・プレス)は、視覚的入力のみを使用する汎用コンピュータ制御のための分断型フレームワークである。我々のエージェントは、幅広い応用に適用可能な、多目的で人間のような相互作用パラダイムを提供する。
論文参考訳（メタデータ） (2024-12-02T08:35:31Z)
ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。 256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文参考訳（メタデータ） (2024-11-26T14:29:47Z)
Leveraging Large Vision Language Model For Better Automatic Web GUI Testing [7.480576630392405]
本稿では,最初のLVLM駆動のエンドツーエンドWebテスト技術であるVETLを提案する。 LVLMのシーン理解機能により、VETLはローカルコンテキストに焦点を当てた有効な意味のあるテキスト入力を生成することができる。関連GUI要素の選択は視覚的質問応答問題として定式化され、LVLMは入力ボックスと関連する要素の間の論理的接続をキャプチャする。
論文参考訳（メタデータ） (2024-10-16T01:37:58Z)
GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文参考訳（メタデータ） (2024-06-17T08:30:55Z)
VideoGUI: A Benchmark for GUI Automation from Instructional Videos [78.97292966276706]
VideoGUIは、ビジュアル中心のGUIタスクでGUIアシスタントを評価するために設計された、新しいマルチモーダルベンチマークである。高品質なWebインストラクショナルビデオから得られたベンチマークは、プロフェッショナルと新しいソフトウェアに関わるタスクに焦点を当てている。評価の結果,SoTAの大規模マルチモーダルモデルであるGPT4oでさえ,視覚中心のGUIタスクでは不十分であることが判明した。
論文参考訳（メタデータ） (2024-06-14T17:59:08Z)
Interlinking User Stories and GUI Prototyping: A Semi-Automatic LLM-based Approach [55.762798168494726]
グラフィカルユーザインタフェース(GUI)のプロトタイプにおいて,機能的NLベースの要求の実装を検証するための新しい言語モデル(LLM)ベースのアプローチを提案する。提案手法は,GUIプロトタイプに実装されていない機能的ユーザストーリの検出と,要件を直接実装する適切なGUIコンポーネントのレコメンデーションを提供することを目的としている。
論文参考訳（メタデータ） (2024-06-12T11:59:26Z)
Practical Non-Intrusive GUI Exploration Testing with Visual-based Robotic Arms [14.3266199543725]
視覚ロボットアームを用いた実用的な非侵襲的GUIテストフレームワークを提案する。 RoboTestは、新しいGUI画面とウィジェット検出アルゴリズムを統合し、異なるサイズのスクリーンに適応する。 20のモバイルアプリでRoboTestを評価し,組込みシステムのケーススタディを行った。
論文参考訳（メタデータ） (2023-12-17T09:05:39Z)
Vision-Based Mobile App GUI Testing: A Survey [29.042723121518765]
ビジョンベースのモバイルアプリ GUI テストアプローチは、コンピュータビジョン技術の開発とともに現れた。本稿では,271論文における最新技術に関する包括的調査を行い,92論文は視覚に基づく研究である。
論文参考訳（メタデータ） (2023-10-20T14:04:04Z)
NiCro: Purely Vision-based, Non-intrusive Cross-Device and Cross-Platform GUI Testing [19.462053492572142]
我々は,非侵入型クロスデバイス・クロスプラットフォームシステムNiCroを提案する。 NiCroは最先端のGUIウィジェット検出器を使用してGUIイメージからウィジェットを検出し、さまざまなデバイスにまたがるウィジェットにマッチする一連の包括的な情報を分析する。システムレベルでは、NiCroは仮想デバイスファームとロボットアームシステムと対話して、非侵襲的にクロスデバイスでクロスプラットフォームなテストを実行することができる。
論文参考訳（メタデータ） (2023-05-24T01:19:05Z)
Emerging App Issue Identification via Online Joint Sentiment-Topic Tracing [66.57888248681303]
本稿では,MERITという新しい問題検出手法を提案する。 AOBSTモデルに基づいて、1つのアプリバージョンに対するユーザレビューに否定的に反映されたトピックを推測する。 Google PlayやAppleのApp Storeで人気のアプリに対する実験は、MERITの有効性を実証している。
論文参考訳（メタデータ） (2020-08-23T06:34:05Z)
Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文参考訳（メタデータ） (2020-08-11T17:58:50Z)
Applied Awareness: Test-Driven GUI Development using Computer Vision and Cryptography [0.0]
テスト駆動開発は非現実的であり、一般的には、黄金の画像を生成したり、インタラクティブなテストシナリオを構築するためにGUIの初期実装を必要とします。バックエンド通信の観点でGUIプレゼンテーションを解釈する,新しいかつ即時適用可能な手法を実証する。このバックエンド通信は、プラットフォームに依存したUIアベイランスやアクセシビリティ機能に依存する典型的なテスト方法論の欠陥を回避する。
論文参考訳（メタデータ） (2020-06-05T22:46:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。