論文の概要: Leveraging Large Vision Language Model For Better Automatic Web GUI Testing
- arxiv url: http://arxiv.org/abs/2410.12157v1
- Date: Wed, 16 Oct 2024 01:37:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:43:29.786684
- Title: Leveraging Large Vision Language Model For Better Automatic Web GUI Testing
- Title(参考訳): 自動WebGUIテストのための大規模ビジョン言語モデルの活用
- Authors: Siyi Wang, Sinan Wang, Yujia Fan, Xiaolei Li, Yepang Liu,
- Abstract要約: 本稿では,最初のLVLM駆動のエンドツーエンドWebテスト技術であるVETLを提案する。
LVLMのシーン理解機能により、VETLはローカルコンテキストに焦点を当てた有効な意味のあるテキスト入力を生成することができる。
関連GUI要素の選択は視覚的質問応答問題として定式化され、LVLMは入力ボックスと関連する要素の間の論理的接続をキャプチャする。
- 参考スコア(独自算出の注目度): 7.480576630392405
- License:
- Abstract: With the rapid development of web technology, more and more software applications have become web-based in the past decades. To ensure software quality and user experience, various techniques have been proposed to automatically test web applications by interacting with their GUIs. To achieve high functional coverage, web GUI testing tools often need to generate high-quality text inputs and interact with the associated GUI elements (e.g., click submit buttons). However, developing a holistic approach that solves both subtasks is challenging because the web GUI context can be complicated and highly dynamic, which makes it hard to process programmatically. The recent development of large vision-language models (LVLM) provides new opportunities to handle these longstanding problems. This paper proposes VETL, the first LVLM-driven end-to-end web testing technique. With LVLM's scene understanding capabilities, VETL can generate valid and meaningful text inputs focusing on the local context, while avoiding the need to extract precise textual attributes. The selection of associated GUI elements is formulated as a visual question-answering problem, allowing LVLM to capture the logical connection between the input box and the relevant element based on visual instructions. Further, the GUI exploration is guided by a multi-armed bandit module employing a curiosity-oriented strategy. Experiments show that VETL effectively explores web state/action spaces and detects bugs. Compared with WebExplor, the state-of-the-art web testing technique, VETL can discover 25% more unique web actions on benchmark websites. Moreover, it can expose functional bugs in top-ranking commercial websites, which the website maintainers have confirmed. Our work makes the first attempt at leveraging LVLM in end-to-end GUI testing, demonstrating promising results in this research direction.
- Abstract(参考訳): Web技術の急速な発展に伴い、ここ数十年でますます多くのソフトウェアアプリケーションがWebベースになっている。
ソフトウェアの品質とユーザエクスペリエンスを確保するため、GUIと対話してWebアプリケーションを自動テストする様々な手法が提案されている。
高い機能カバレッジを達成するために、Web GUIテストツールは、高品質なテキスト入力を生成し、関連するGUI要素(例えば、投稿ボタンをクリック)と対話する必要があることが多い。
しかし,ウェブGUIのコンテキストは複雑で動的であるため,プログラム的に処理することが難しいため,両方のサブタスクを解決する包括的なアプローチの開発は困難である。
大規模視覚言語モデル(LVLM)の最近の発展は、これらの長年にわたる問題に対処する新たな機会を提供する。
本稿では,最初のLVLM駆動型エンドツーエンドWebテスト技術であるVETLを提案する。
LVLMのシーン理解機能により、VETLは、正確なテキスト属性の抽出を回避しつつ、ローカルコンテキストに焦点を当てた有効な有意義なテキスト入力を生成することができる。
関連GUI要素の選択は視覚的質問応答問題として定式化され、LVLMは視覚的指示に基づいて入力ボックスと関連する要素間の論理的接続をキャプチャする。
さらに、好奇心指向戦略を用いた多腕バンディットモジュールによりGUI探索を導出する。
VETLはWebの状態/動作空間を効果的に探索し、バグを検出する。
最先端のWebテスティング技術であるWebExplorと比較して、VETLはベンチマークウェブサイトで25%ユニークなWebアクションを発見できる。
さらに、ウェブサイトのメンテナが確認した上位の商用ウェブサイトで機能的なバグを公開することもできる。
我々の研究は、エンドツーエンドGUIテストにおいてLVLMを活用する最初の試みであり、この研究の方向性について有望な結果を実証している。
関連論文リスト
- TRISHUL: Towards Region Identification and Screen Hierarchy Understanding for Large VLM based GUI Agents [0.6827423171182154]
TRISHULは、総合的なGUI理解のための一般のLVLMを強化する、トレーニング不要のフレームワークである。
この結果は、ScreenSpot、VisualWebBench、AITW、Mind2WebデータセットをまたいだアクショングラウンドにおけるTRISHULの優れたパフォーマンスを示している。
GUI参照の場合、TRISHULはScreenPRベンチマークのToLエージェントを超え、堅牢で適応可能なGUI理解のための新しい標準を設定している。
論文 参考訳(メタデータ) (2025-02-12T09:12:30Z) - WebWalker: Benchmarking LLMs in Web Traversal [64.48425443951749]
WebWalkerQAは,LLMがWebトラバースを実現する能力を評価するためのベンチマークである。
本稿では,WebWalkerを提案する。WebWalkerは,探索的・批判的パラダイムを通じて,人間のようなWebナビゲーションを模倣するマルチエージェントフレームワークである。
論文 参考訳(メタデータ) (2025-01-13T18:58:07Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。
提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。
これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - Ponder & Press: Advancing Visual GUI Agent towards General Computer Control [13.39115823642937]
Ponder & Press(ポンダー・アンド・プレス)は、視覚的入力のみを使用する汎用コンピュータ制御のための分断型フレームワークである。
我々のエージェントは、幅広い応用に適用可能な、多目的で人間のような相互作用パラダイムを提供する。
論文 参考訳(メタデータ) (2024-12-02T08:35:31Z) - Large Language Model-Brained GUI Agents: A Survey [42.82362907348966]
マルチモーダルモデルはGUI自動化の新しい時代を支えてきた。
彼らは自然言語理解、コード生成、視覚処理において例外的な能力を示した。
これらのエージェントはパラダイムシフトを表しており、ユーザーは単純な会話コマンドで複雑なマルチステップタスクを実行できる。
論文 参考訳(メタデータ) (2024-11-27T12:13:39Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - Harnessing Webpage UIs for Text-Rich Visual Understanding [112.01029887404296]
テキストベース大規模言語モデル(LLM)を用いたWebページUIからの汎用マルチモーダル命令の合成を提案する。
これらの命令はUIスクリーンショットと組み合わせて、マルチモーダルモデルのトレーニングを行う。
我々は、100万のWebサイトから730万のサンプルを含むデータセットであるMultiUIを紹介し、多様なマルチモーダルタスクとUIレイアウトをカバーした。
論文 参考訳(メタデータ) (2024-10-17T17:48:54Z) - GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,ImageLLMs や VideoLLMs などの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z) - VideoGUI: A Benchmark for GUI Automation from Instructional Videos [78.97292966276706]
VideoGUIは、ビジュアル中心のGUIタスクでGUIアシスタントを評価するために設計された、新しいマルチモーダルベンチマークである。
高品質なWebインストラクショナルビデオから得られたベンチマークは、プロフェッショナルと新しいソフトウェアに関わるタスクに焦点を当てている。
評価の結果,SoTAの大規模マルチモーダルモデルであるGPT4oでさえ,視覚中心のGUIタスクでは不十分であることが判明した。
論文 参考訳(メタデータ) (2024-06-14T17:59:08Z) - "What's important here?": Opportunities and Challenges of Using LLMs in
Retrieving Information from Web Interfaces [19.656406003275713]
本研究では,大規模言語モデル (LLM) を用いて,Web インターフェースにおいてユーザが与えられたクエリに対して重要な要素を検索し,発見する方法について検討する。
私たちの経験的な実験によると、LLMは重要なUI要素を取得する上で適切なレベルのパフォーマンスを示しますが、改善の余地は依然としてあります。
論文 参考訳(メタデータ) (2023-12-11T06:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。