Fugu-MT 論文翻訳(概要): LLM-based Abstraction and Concretization for GUI Test Migration

論文の概要: LLM-based Abstraction and Concretization for GUI Test Migration

arxiv url: http://arxiv.org/abs/2409.05028v1
Date: Sun, 8 Sep 2024 08:46:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-10 19:40:09.907017
Title: LLM-based Abstraction and Concretization for GUI Test Migration
Title（参考訳）: GUIテストマイグレーションのためのLLMによる抽象化と拡張
Authors: Yakun Zhang, Chen Liu, Xiaofei Xie, Yun Lin, Jin Song Dong, Dan Hao, Lu Zhang,
Abstract要約: GUIテストマイグレーションは、ターゲットアプリの特定の機能をテストするために、イベントとアサーションを備えたテストケースを生成することを目的としている。本稿では,まず,対象機能に対するテストロジックを抽象化する新たなマイグレーションパラダイムを提案する。このパラダイムに基づいてGUIテストケースを移行する最初のアプローチであるMACdroidを紹介します。
参考スコア（独自算出の注目度）: 26.503512328876198
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: GUI test migration aims to produce test cases with events and assertions to test specific functionalities of a target app. Existing migration approaches typically focus on the widget-mapping paradigm that maps widgets from source apps to target apps. However, since different apps may implement the same functionality in different ways, direct mapping may result in incomplete or buggy test cases, thus significantly impacting the effectiveness of testing target functionality and the practical applicability. In this paper, we propose a new migration paradigm (i.e., abstraction-concretization paradigm) that first abstracts the test logic for the target functionality and then utilizes this logic to generate the concrete GUI test case. Furthermore, we introduce MACdroid, the first approach that migrates GUI test cases based on this paradigm. Specifically, we propose an abstraction technique that utilizes source test cases from source apps targeting the same functionality to extract a general test logic for that functionality. Then, we propose a concretization technique that utilizes the general test logic to guide an LLM in generating the corresponding GUI test case (including events and assertions) for the target app. We evaluate MACdroid on two widely-used datasets (including 31 apps, 34 functionalities, and 123 test cases). On the FrUITeR dataset, the test cases generated by MACdroid successfully test 64% of the target functionalities, improving the baselines by 191%. On the Lin dataset, MACdroid successfully tests 75% of the target functionalities, outperforming the baselines by 42%. These results underscore the effectiveness of MACdroid in GUI test migration.
Abstract（参考訳）: GUIテストマイグレーションは、ターゲットアプリの特定の機能をテストするために、イベントとアサーションを備えたテストケースを生成することを目的としている。既存のマイグレーションアプローチは通常、ウィジェットをソースアプリからターゲットアプリにマップするウィジェットマッピングパラダイムに重点を置いている。しかし、異なるアプリが同じ機能を異なる方法で実装する可能性があるため、ダイレクトマッピングは不完全あるいはバグの多いテストケースをもたらす可能性があるため、ターゲット機能のテストの有効性と実用性に大きな影響を及ぼす。本稿では,まず対象機能に対するテストロジックを抽象化し,このロジックを用いて具体的なGUIテストケースを生成する,新しいマイグレーションパラダイム(抽象-拡張パラダイム)を提案する。さらに、このパラダイムに基づいてGUIテストケースを移行する最初のアプローチであるMACdroidを紹介します。具体的には、同じ機能をターゲットにしたソースアプリからソーステストケースを利用して、その機能のための一般的なテストロジックを抽出する抽象化手法を提案する。そこで,本研究では,汎用テストロジックを用いてGUIテストケース(イベントやアサーションを含む)をターゲットアプリに生成する際にLCMを誘導する手法を提案する。 MACdroidを2つの広く使われているデータセット(31のアプリ、34の機能、123のテストケースを含む)で評価した。 FrUITeRデータセットでは、MACdroidが生成したテストケースがターゲット機能の64%をテストし、ベースラインを191%改善した。 Linデータセットでは、MACdroidがターゲット機能の75%をテストし、ベースラインを42%上回った。これらの結果はGUIテストマイグレーションにおけるMACdroidの有効性を裏付けるものである。

関連論文リスト

GTA1: GUI Test-time Scaling Agent [77.60727242084971]
本稿ではGUIテストタイムスケーリングエージェントGTA1の2つの課題について検討する。まず、最も適切なアクション提案を選択するために、テスト時間スケーリング手法を提案する。第2に、選択したアクション提案を対応する視覚要素にグラウンドする際の精度の向上を実現するモデルを提案する。
論文参考訳（メタデータ） (2025-07-08T08:52:18Z)
LLM-Guided Scenario-based GUI Testing [25.180945629233786]
ScenGenは、新しいLLM誘導シナリオベースのGUIテストアプローチで、5つのエージェントを含んでいる。 Observerは、GUIウィジェットを抽出し、GUIレイアウトを形成することで、アプリのGUI状態を認識する。次に、Executorはアプリの要求された操作を実行する。
論文参考訳（メタデータ） (2025-06-05T14:27:40Z)
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文参考訳（メタデータ） (2025-04-04T00:41:40Z)
ReuseDroid: A VLM-empowered Android UI Test Migrator Boosted by Active Feedback [11.624163693084446]
本稿では,大規模視覚言語モデル(VLM)によるGUIテストマイグレーションのための新しいマルチエージェントフレームワークであるREUSEDROIDを提案する。 REUSEDROIDの洞察は、同じアプリ間で共有されるコアロジックのみに基づいて、テストを移行することである。テストマイグレーションデータセットであるLinPro上でREUSEDROIDを評価する。
論文参考訳（メタデータ） (2025-04-03T07:45:09Z)
CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文参考訳（メタデータ） (2025-02-12T21:42:56Z)
Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2024-10-09T15:02:28Z)
Skill-Adpative Imitation Learning for UI Test Reuse [13.538724823517292]
UIテストマイグレーションの有効性を高めるために,スキル適応型模倣学習フレームワークを提案する。その結果、SAILはUIテストマイグレーションの有効性を大幅に改善し、149%の成功率が最先端のアプローチよりも高いことがわかった。
論文参考訳（メタデータ） (2024-09-20T08:13:04Z)
Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文参考訳（メタデータ） (2024-09-03T11:09:44Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)
Practical, Automated Scenario-based Mobile App Testing [13.52057950260007]
ヒューマンテスタが開発したテストスクリプトは、テストシナリオに集中してビジネスロジックを検討する。モバイルアプリのGUI集約的な機能のため、ヒューマンテスタは常にアプリケーションのGUIを理解して、シナリオのテストスクリプトを整理します。 ScenTestは、ヒューマンプラクティスを模倣し、ドメイン知識をシナリオベースのモバイルアプリテストに統合することで、自動テストを開始する。
論文参考訳（メタデータ） (2024-06-12T15:48:39Z)
GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。 GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文参考訳（メタデータ） (2024-02-23T10:02:01Z)
Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。 TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文参考訳（メタデータ） (2024-02-09T00:34:39Z)
Domain Adaptation for Code Model-based Unit Test Case Generation [7.147408628963976]
私たちはTransformerベースのコードモデルを利用して、プロジェクトレベルでドメイン適応(DA)の助けを借りて単体テストを生成します。 DAを用いて生成した試験は18.62%,19.88%,18.02%,突然変異スコア16.45%,16.01%,12.99%のラインカバレッジを増大させることができる。
論文参考訳（メタデータ） (2023-08-15T20:48:50Z)
Chatting with GPT-3 for Zero-Shot Human-Like Mobile Automated GUI Testing [23.460051600514806]
GPTDroid を提案し,GUI ページ情報を LLM に渡してテストスクリプトを抽出することにより,大規模言語モデルにモバイルアプリとのチャットを依頼する。そこで我々はGUIページの静的コンテキストと反復テストプロセスの動的コンテキストを抽出する。 Google Playの86のアプリ上でGPTDroidを評価し、そのアクティビティカバレッジは71%で、最高のベースラインよりも32%高く、最高のベースラインよりも高速で36%多くのバグを検出することができます。
論文参考訳（メタデータ） (2023-05-16T13:46:52Z)
AdaNPC: Exploring Non-Parametric Classifier for Test-Time Adaptation [64.9230895853942]
ドメインの一般化は、ターゲットのドメイン情報を活用することなく、任意に困難にすることができる。この問題に対処するためにテスト時適応(TTA)手法が提案されている。本研究では,テスト時間適応(AdaNPC)を行うためにNon-Parametricを採用する。
論文参考訳（メタデータ） (2023-04-25T04:23:13Z)
An Empirical Evaluation of Using Large Language Models for Automated Unit Test Generation [3.9762912548964864]
本稿では,自動単体テスト生成における大規模言語モデルの有効性について,大規模な実証評価を行った。これはJavaScript用のテスト生成ツールで、npmパッケージ内のすべてのAPI関数のユニットテストを自動的に生成します。 TestPilotの生成されたテストの92.8%は、既存のテストと50%以上の類似性を持っていない。
論文参考訳（メタデータ） (2023-02-13T17:13:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。