Fugu-MT 論文翻訳(概要): Large Language Models for Mobile GUI Text Input Generation: An Empirical Study

論文の概要: Large Language Models for Mobile GUI Text Input Generation: An Empirical Study

arxiv url: http://arxiv.org/abs/2404.08948v2
Date: Wed, 26 Feb 2025 06:23:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-27 15:24:45.936446
Title: Large Language Models for Mobile GUI Text Input Generation: An Empirical Study
Title（参考訳）: モバイルGUIテキスト入力生成のための大規模言語モデル:実証的研究
Authors: Chenhui Cui, Tao Li, Junjie Wang, Chunyang Chen, Dave Towey, Rubing Huang,
Abstract要約: 大規模言語モデル(LLM)は優れたテキスト生成機能を示している。本稿では,UIページに対するAndroidテキスト入力生成における9つの最先端LCMの有効性を広範囲に検討する。
参考スコア（独自算出の注目度）: 24.256184336154544
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mobile applications have become an essential part of our daily lives, making ensuring their quality an important activity. Graphical User Interface (GUI) testing is a quality assurance method that has frequently been used for mobile apps. When conducting GUI testing, it is important to generate effective text inputs for the text-input components. Some GUIs require these text inputs to be able to move from one page to the next: This can be a challenge to achieving complete UI exploration. Recently, Large Language Models (LLMs) have demonstrated excellent text-generation capabilities. To the best of our knowledge, there has not yet been any empirical study to evaluate different pre-trained LLMs' effectiveness at generating text inputs for mobile GUI testing. This paper reports on a large-scale empirical study that extensively investigates the effectiveness of nine state-of-the-art LLMs in Android text-input generation for UI pages. We collected 114 UI pages from 62 open-source Android apps and extracted contextual information from the UI pages to construct prompts for LLMs to generate text inputs. The experimental results show that some LLMs can generate more effective and higher-quality text inputs, achieving a 50.58% to 66.67% page-pass-through rate (PPTR). We also found that using more complete UI contextual information can increase the PPTRs of LLMs for generating text inputs. We conducted an experiment to evaluate the bug-detection capabilities of LLMs by directly generating invalid text inputs. We collected 37 real-world bugs related to text inputs. The results show that using LLMs to directly generate invalid text inputs for bug detection is insufficient: The bug-detection rates of the nine LLMs are all less than 23%. In addition, we also describe six insights gained regarding the use of LLMs for Android testing: These insights will benefit the Android testing community.
Abstract（参考訳）: モバイルアプリケーションは私たちの日常生活において不可欠な部分となり、品質が重要な活動であることを保証する。グラフィカルユーザインタフェース(GUI)テストは、モバイルアプリで頻繁に使用される品質保証手法である。 GUIテストを行う際には、テキスト入力コンポーネントに対して効果的なテキスト入力を生成することが重要である。一部のGUIは、これらのテキスト入力を1ページから次のページへ移動できるように要求している。近年,Large Language Models (LLM) は優れたテキスト生成機能を示している。我々の知る限り、モバイルGUIテストのためのテキスト入力生成における学習済みLLMの有効性を評価するための実験的な研究はまだ行われていない。本報告では,UIページに対するAndroidテキスト入力生成における9つの最先端LCMの有効性を,大規模に検証した実証的研究について報告する。 62のオープンソースAndroidアプリから114のUIページを収集し、UIページからコンテキスト情報を抽出し、LLMがテキスト入力を生成するプロンプトを構築した。実験の結果、一部のLCMはより効果的で高品質なテキスト入力を生成でき、50.58%から66.67%のページパススルーレート(PPTR)を達成した。また、より完全なUIコンテキスト情報を使用することで、テキスト入力を生成するためのLPMのPPTRを増大させることができることがわかった。我々は,不正テキスト入力を直接生成することにより,LSMのバグ検出能力を評価する実験を行った。テキスト入力に関連する37の現実世界のバグを収集した。その結果,9つのLSMのバグ検出率は,いずれも23%未満であることがわかった。さらに、AndroidテストにLLMを使うことに関して得られた6つの洞察についても述べています。

関連論文リスト

GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。具体的には,テキスト内のAI生成間隔をローカライズするために,コンピュータビジョンから適応したDETRのような検出モデルと組み合わせて,微調整の汎用LLMを用いる。
論文参考訳（メタデータ） (2024-10-31T08:30:55Z)
SMLT-MUGC: Small, Medium, and Large Texts -- Machine versus User-Generated Content Detection and Comparison [2.7147912878168303]
我々は,(1)小規模(選挙,FIFA,ゲーム・オブ・スローンズからのツイート),(2)媒体(Wikipedia導入,PubMed要約),(3)大規模(OpenAI Webテキストデータセット)の4つのデータセットにおける機械学習アルゴリズムの性能を比較した。その結果,非常に大きなパラメータを持つLCM(例えば1542万パラメータを持つGPT2のXL-1542変種など)は,従来の機械学習手法による検出が困難であることが示唆された。言語学,人格,感情,偏見,道徳など,多次元にわたる人文・機械文の特徴について検討する。
論文参考訳（メタデータ） (2024-06-28T22:19:01Z)
ReMoDetect: Reward Models Recognize Aligned LLM's Generations [55.06804460642062]
大型言語モデル (LLM) は人間の好むテキストを生成する。本稿では,これらのモデルで共有される共通特性について述べる。報奨モデルの検出能力をさらに向上する2つのトレーニング手法を提案する。
論文参考訳（メタデータ） (2024-05-27T17:38:33Z)
Large Language Models for Automated Web-Form-Test Generation: An Empirical Study [8.32635005234879]
大規模言語モデル(LLM)は文脈テキスト生成に大きな可能性を示している。異なるLLMを比較した比較研究は、Web-form-test 生成についてはまだ報告されていない。本稿では,鍵となる文脈情報を抽出する3つのHTML構造解析手法を提案する。
論文参考訳（メタデータ） (2024-05-16T10:21:03Z)
Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
我々は,人文テキストがLLM生成テキストよりも文法的誤りを多く含んでいるという観察に基づく,シンプルで効果的なブラックボックスゼロショット検出手法を提案する。実験結果から,本手法はゼロショット法や教師あり手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-05-07T12:57:01Z)
Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。 InFO-RAGは低コストで、様々なタスクにまたがっている。 LLaMA2の性能を平均9.39%向上させる。
論文参考訳（メタデータ） (2024-02-28T08:24:38Z)
Make LLM a Testing Expert: Bringing Human-like Interaction to Mobile GUI Testing via Functionality-aware Decisions [23.460051600514806]
GPTDroidは、モバイルアプリ向けのQ&AベースのGUIテスティングフレームワークである。機能認識型メモリプロンプト機構を導入する。アクティビティのカバレッジが32%向上し、より高速な速度で31%のバグを検出する。
論文参考訳（メタデータ） (2023-10-24T12:30:26Z)
Testing the Limits: Unusual Text Inputs Generation for Mobile App Crash Detection with Large Language Model [23.460051600514806]
本稿では,モバイルアプリのクラッシュ検出のための異常なテキスト入力を自動的に生成するInputBlasterを提案する。異常な入力生成問題をテストジェネレータのセットを生成するタスクとして定式化し、それぞれが異常なテキスト入力のバッチを生成する。 36のテキスト入力ウィジェットで評価され、31の人気のあるAndroidアプリを含むキャッシュバグがあり、その結果、バグ検出率は78%で、最高のベースラインよりも136%高い。
論文参考訳（メタデータ） (2023-10-24T09:10:51Z)
Detecting LLM-Generated Text in Computing Education: A Comparative Study for ChatGPT Cases [0.0]
大規模言語モデル(LLM)は、教育における学術的完全性に深刻な脅威をもたらしている。現代の検出器は、学術的完全性を維持するための完全なソリューションを提供するために、まだ改善を必要としている。
論文参考訳（メタデータ） (2023-07-10T12:18:34Z)
Open-Source LLMs for Text Annotation: A Practical Guide for Model Setting and Fine-Tuning [5.822010906632045]
本稿では、政治科学研究に典型的なテキスト分類タスクにおけるオープンソースのLarge Language Models(LLM)の性能について検討する。姿勢・話題・関連分類などの課題を調べることで,テキスト分析におけるLLMの使用に関する情報的判断を学者に指導することを目指す。
論文参考訳（メタデータ） (2023-07-05T10:15:07Z)
Harnessing Explanations: LLM-to-LM Interpreter for Enhanced Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。提案手法は、確立されたTAGデータセットの最先端結果を実現する。本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文参考訳（メタデータ） (2023-05-31T03:18:03Z)
LLMDet: A Third Party Large Language Models Generated Text Detection Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文参考訳（メタデータ） (2023-05-24T10:45:16Z)
Chatting with GPT-3 for Zero-Shot Human-Like Mobile Automated GUI Testing [23.460051600514806]
GPTDroid を提案し,GUI ページ情報を LLM に渡してテストスクリプトを抽出することにより,大規模言語モデルにモバイルアプリとのチャットを依頼する。そこで我々はGUIページの静的コンテキストと反復テストプロセスの動的コンテキストを抽出する。 Google Playの86のアプリ上でGPTDroidを評価し、そのアクティビティカバレッジは71%で、最高のベースラインよりも32%高く、最高のベースラインよりも高速で36%多くのバグを検出することができます。
論文参考訳（メタデータ） (2023-05-16T13:46:52Z)
A Survey of Pretrained Language Models Based Text Generation [97.64625999380425]
テキスト生成は、入力データから人間の言語で可読で読みやすいテキストを生成することを目的としている。ディープラーニングは、ニューラルジェネレーションモデル、特に事前学習言語モデル(PLM)のパラダイムにより、この分野を大幅に進歩させた。 PLM上でのテキスト生成は、学術と産業の両方において有望な方向と見なされている。
論文参考訳（メタデータ） (2022-01-14T01:44:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。