論文の概要: Leveraging Large Vision Language Model For Better Automatic Web GUI Testing
- arxiv url: http://arxiv.org/abs/2410.12157v1
- Date: Wed, 16 Oct 2024 01:37:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:43:29.786684
- Title: Leveraging Large Vision Language Model For Better Automatic Web GUI Testing
- Title(参考訳): 自動WebGUIテストのための大規模ビジョン言語モデルの活用
- Authors: Siyi Wang, Sinan Wang, Yujia Fan, Xiaolei Li, Yepang Liu,
- Abstract要約: 本稿では,最初のLVLM駆動のエンドツーエンドWebテスト技術であるVETLを提案する。
LVLMのシーン理解機能により、VETLはローカルコンテキストに焦点を当てた有効な意味のあるテキスト入力を生成することができる。
関連GUI要素の選択は視覚的質問応答問題として定式化され、LVLMは入力ボックスと関連する要素の間の論理的接続をキャプチャする。
- 参考スコア(独自算出の注目度): 7.480576630392405
- License:
- Abstract: With the rapid development of web technology, more and more software applications have become web-based in the past decades. To ensure software quality and user experience, various techniques have been proposed to automatically test web applications by interacting with their GUIs. To achieve high functional coverage, web GUI testing tools often need to generate high-quality text inputs and interact with the associated GUI elements (e.g., click submit buttons). However, developing a holistic approach that solves both subtasks is challenging because the web GUI context can be complicated and highly dynamic, which makes it hard to process programmatically. The recent development of large vision-language models (LVLM) provides new opportunities to handle these longstanding problems. This paper proposes VETL, the first LVLM-driven end-to-end web testing technique. With LVLM's scene understanding capabilities, VETL can generate valid and meaningful text inputs focusing on the local context, while avoiding the need to extract precise textual attributes. The selection of associated GUI elements is formulated as a visual question-answering problem, allowing LVLM to capture the logical connection between the input box and the relevant element based on visual instructions. Further, the GUI exploration is guided by a multi-armed bandit module employing a curiosity-oriented strategy. Experiments show that VETL effectively explores web state/action spaces and detects bugs. Compared with WebExplor, the state-of-the-art web testing technique, VETL can discover 25% more unique web actions on benchmark websites. Moreover, it can expose functional bugs in top-ranking commercial websites, which the website maintainers have confirmed. Our work makes the first attempt at leveraging LVLM in end-to-end GUI testing, demonstrating promising results in this research direction.
- Abstract(参考訳): Web技術の急速な発展に伴い、ここ数十年でますます多くのソフトウェアアプリケーションがWebベースになっている。
ソフトウェアの品質とユーザエクスペリエンスを確保するため、GUIと対話してWebアプリケーションを自動テストする様々な手法が提案されている。
高い機能カバレッジを達成するために、Web GUIテストツールは、高品質なテキスト入力を生成し、関連するGUI要素(例えば、投稿ボタンをクリック)と対話する必要があることが多い。
しかし,ウェブGUIのコンテキストは複雑で動的であるため,プログラム的に処理することが難しいため,両方のサブタスクを解決する包括的なアプローチの開発は困難である。
大規模視覚言語モデル(LVLM)の最近の発展は、これらの長年にわたる問題に対処する新たな機会を提供する。
本稿では,最初のLVLM駆動型エンドツーエンドWebテスト技術であるVETLを提案する。
LVLMのシーン理解機能により、VETLは、正確なテキスト属性の抽出を回避しつつ、ローカルコンテキストに焦点を当てた有効な有意義なテキスト入力を生成することができる。
関連GUI要素の選択は視覚的質問応答問題として定式化され、LVLMは視覚的指示に基づいて入力ボックスと関連する要素間の論理的接続をキャプチャする。
さらに、好奇心指向戦略を用いた多腕バンディットモジュールによりGUI探索を導出する。
VETLはWebの状態/動作空間を効果的に探索し、バグを検出する。
最先端のWebテスティング技術であるWebExplorと比較して、VETLはベンチマークウェブサイトで25%ユニークなWebアクションを発見できる。
さらに、ウェブサイトのメンテナが確認した上位の商用ウェブサイトで機能的なバグを公開することもできる。
我々の研究は、エンドツーエンドGUIテストにおいてLVLMを活用する最初の試みであり、この研究の方向性について有望な結果を実証している。
関連論文リスト
- EDGE: Enhanced Grounded GUI Understanding with Enriched Multi-Granularity Synthetic Data [15.801018643716437]
本稿では,大規模視覚言語モデル(LVLM)のGUI理解と対話能力を,データ駆動型アプローチにより向上することを目的とする。
本稿では,Web上のWebページから大規模で粒度の高いトレーニングデータを自動的に生成する汎用データ合成フレームワークEDGEを提案する。
提案手法は,手動アノテーションへの依存を著しく低減し,研究者がWeb上で利用可能な膨大な公開リソースを活用して作業を進めることを可能にする。
論文 参考訳(メタデータ) (2024-10-25T10:46:17Z) - Harnessing Webpage UIs for Text-Rich Visual Understanding [112.01029887404296]
テキストベース大規模言語モデル(LLM)を用いたWebページUIからの汎用マルチモーダル命令の合成を提案する。
これらの命令はUIスクリーンショットと組み合わせて、マルチモーダルモデルのトレーニングを行う。
我々は、100万のWebサイトから730万のサンプルを含むデータセットであるMultiUIを紹介し、多様なマルチモーダルタスクとUIレイアウトをカバーした。
論文 参考訳(メタデータ) (2024-10-17T17:48:54Z) - Vision-driven Automated Mobile GUI Testing via Multimodal Large Language Model [27.97964877860671]
本稿では,マルチモーダル大規模言語モデルを用いて,非クラッシュな機能的バグを検出する視覚駆動型GUIテスト手法を提案する。
GUIテキスト情報を抽出し、スクリーンショットと整列して視覚プロンプトを形成することで、MLLMはGUIコンテキストを理解することができる。
VisionDroidは、Google Playの29の新しいバグを特定し、そのうち19が確認され、修正されている。
論文 参考訳(メタデータ) (2024-07-03T11:58:09Z) - Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs [112.89665642941814]
MLLM(Multimodal large language model)は、画像、ビデオ、オーディオなどのモダリティにおいて顕著な成功を収めている。
現在のMLLMは、Webページのスクリーンショットを理解し、対応するHTMLコードを生成するのに驚くほど貧弱です。
命令チューニングのための大規模Webページ・ツー・コードデータセットを新たに構築したベンチマークであるWeb2Codeを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:59:46Z) - GUI Action Narrator: Where and When Did That Action Take Place? [19.344324166716245]
我々は,4,189種類の動画キャプションサンプルからなるGUIアクションの動画キャプションベンチマークを開発した。
本課題は,自然映像のキャプションに比較して,独特な課題を呈する。
GUI アクションデータセット textbfAct2Cap と GUI ビデオキャプションのためのシンプルなフレームワーク textbfGUI Narrator を紹介する。
論文 参考訳(メタデータ) (2024-06-19T17:22:11Z) - GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。
まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。
次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文 参考訳(メタデータ) (2024-06-17T08:30:55Z) - GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,ImageLLMs や VideoLLMs などの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z) - VideoGUI: A Benchmark for GUI Automation from Instructional Videos [78.97292966276706]
VideoGUIは、ビジュアル中心のGUIタスクでGUIアシスタントを評価するために設計された、新しいマルチモーダルベンチマークである。
高品質なWebインストラクショナルビデオから得られたベンチマークは、プロフェッショナルと新しいソフトウェアに関わるタスクに焦点を当てている。
評価の結果,SoTAの大規模マルチモーダルモデルであるGPT4oでさえ,視覚中心のGUIタスクでは不十分であることが判明した。
論文 参考訳(メタデータ) (2024-06-14T17:59:08Z) - On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。
本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:18:12Z) - "What's important here?": Opportunities and Challenges of Using LLMs in
Retrieving Information from Web Interfaces [19.656406003275713]
本研究では,大規模言語モデル (LLM) を用いて,Web インターフェースにおいてユーザが与えられたクエリに対して重要な要素を検索し,発見する方法について検討する。
私たちの経験的な実験によると、LLMは重要なUI要素を取得する上で適切なレベルのパフォーマンスを示しますが、改善の余地は依然としてあります。
論文 参考訳(メタデータ) (2023-12-11T06:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。