論文の概要: Towards Test Generation from Task Description for Mobile Testing with Multi-modal Reasoning
- arxiv url: http://arxiv.org/abs/2504.15917v1
- Date: Tue, 22 Apr 2025 14:02:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 18:10:16.703727
- Title: Towards Test Generation from Task Description for Mobile Testing with Multi-modal Reasoning
- Title(参考訳): マルチモーダル推論を用いたモバイルテストのためのタスク記述からのテスト生成に向けて
- Authors: Hieu Huynh, Hai Phung, Hao Pham, Tien N. Nguyen, Vu Nguyen,
- Abstract要約: マルチモーダルなマルチエージェントフレームワークであるVisiDroidを導入し、次のアクションを反復的に決定し、画面の視覚画像を利用してタスクの完全性を検出する。
我々の評価では、VisiDroidの精度は87.3%で、最良基準線を23.5%上回っている。
- 参考スコア(独自算出の注目度): 8.363126388041408
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In Android GUI testing, generating an action sequence for a task that can be replayed as a test script is common. Generating sequences of actions and respective test scripts from task goals described in natural language can eliminate the need for manually writing test scripts. However, existing approaches based on large language models (LLM) often struggle with identifying the final action, and either end prematurely or continue past the final screen. In this paper, we introduce VisiDroid, a multi-modal, LLM-based, multi-agent framework that iteratively determines the next action and leverages visual images of screens to detect the task's completeness. The multi-modal approach enhances our model in two significant ways. First, this approach enables it to avoid prematurely terminating a task when textual content alone provides misleading indications of task completion. Additionally, visual input helps the tool avoid errors when changes in the GUI do not directly affect functionality toward task completion, such as adjustments to font sizes or colors. Second, the multi-modal approach also ensures the tool not progress beyond the final screen, which might lack explicit textual indicators of task completion but could display a visual element indicating task completion, which is common in GUI apps. Our evaluation shows that VisiDroid achieves an accuracy of 87.3%, outperforming the best baseline relatively by 23.5%. We also demonstrate that our multi-modal framework with images and texts enables the LLM to better determine when a task is completed.
- Abstract(参考訳): Android GUIテストでは、テストスクリプトとして再生可能なタスクのアクションシーケンスを生成することが一般的である。
自然言語で記述されたタスク目標からアクションのシーケンスと各テストスクリプトを生成することで、手動でテストスクリプトを書く必要がなくなる。
しかし、大規模言語モデル(LLM)に基づく既存のアプローチは、最終動作の特定に苦労することが多く、早めに終了するか、最終画面を通り過ぎ続ける。
本稿では,次の動作を反復的に決定し,画面の視覚的イメージを利用してタスクの完全性を検出するマルチモーダルLLMベースのマルチエージェントフレームワークであるVisiDroidを紹介する。
マルチモーダルアプローチは、我々のモデルを2つの重要な方法で強化する。
まず,テキストコンテンツだけでタスク完了の誤解を招くような指示を与える場合,タスクの早期終了を回避できる。
さらに視覚的な入力は、GUIの変更が、フォントサイズや色を調整するなどのタスク完了に向けた機能に直接影響しない場合、ツールがエラーを避けるのに役立つ。
第二に、マルチモーダルアプローチは、タスク完了の明示的なテキスト表示が欠けているが、GUIアプリでは一般的なタスク完了を示す視覚要素を表示することができるため、最終画面を超えてツールが進行しないことを保証する。
我々の評価では、VisiDroidの精度は87.3%で、最良基準線を23.5%上回っている。
また、画像とテキストを用いたマルチモーダルフレームワークにより、LCMがタスクが完了するタイミングをよりよく決定できることを示す。
関連論文リスト
- Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
タスク選好最適化(TPO)は、典型的なきめ細かい視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法である。
トレーニング中にリッチなビジュアルラベルを活用することで、TPOはMLLMのマルチモーダル能力とタスク固有のパフォーマンスを大幅に向上させる。
VideoChatとLLaVAによるこのアプローチのインスタンス化は、ベースラインモデルと比較して、総合的に14.6%のマルチモーダル性能の向上を示している。
論文 参考訳(メタデータ) (2024-12-26T18:56:05Z) - VideoGUI: A Benchmark for GUI Automation from Instructional Videos [78.97292966276706]
VideoGUIは、ビジュアル中心のGUIタスクでGUIアシスタントを評価するために設計された、新しいマルチモーダルベンチマークである。
高品質なWebインストラクショナルビデオから得られたベンチマークは、プロフェッショナルと新しいソフトウェアに関わるタスクに焦点を当てている。
評価の結果,SoTAの大規模マルチモーダルモデルであるGPT4oでさえ,視覚中心のGUIタスクでは不十分であることが判明した。
論文 参考訳(メタデータ) (2024-06-14T17:59:08Z) - TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection [23.73648235283315]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
最近のソリューションは主にオールインワンモデルです。
汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:02Z) - Android in the Zoo: Chain-of-Action-Thought for GUI Agents [38.07337874116759]
この研究は、前回のアクション、現在のスクリーン、さらに重要なことは、どのアクションを実行するべきか、選択されたアクションによって導かれる結果について、アクション思考を記述する、Chain-of-Action-Thought (dubed CoAT)を提示する。
我々は,3つの既成LMMのゼロショット設定において,CoATは従来のコンテキストモデルと比較して,動作予測を大幅に改善することを示した。
このラインでの研究をさらに促進するために,AitZ(Android-In-The-Zoo)という,18,643のスクリーンアクションペアとチェーン・オブ・アクションを組み合わせたデータセットを構築した。
論文 参考訳(メタデータ) (2024-03-05T07:09:35Z) - Multitask Multimodal Prompted Training for Interactive Embodied Task
Completion [48.69347134411864]
Embodied MultiModal Agent (EMMA) はエンコーダとデコーダの統一モデルである。
すべてのタスクをテキスト生成として統一することで、EMMAはタスク間の転送を容易にするアクション言語を学ぶ。
論文 参考訳(メタデータ) (2023-11-07T15:27:52Z) - ControlLLM: Augment Language Models with Tools by Searching on Graphs [97.62758830255002]
我々は,大規模言語モデル(LLM)が実世界のタスクを解くためのマルチモーダルツールを利用できる新しいフレームワークであるControlLLMを提案する。
フレームワークは,(1)複雑なタスクを明確なサブタスクに分割し,入力と出力を適切に定義したサブタスクに分解するtextittask Decomposer,(2)構築済みのツールグラフ上で最適なソリューションパスを探索する textitThoughts-on-Graph(ToG)パラダイム,(3)ソリューションパスを解釈して実行するリッチなツールボックスを備えた textitexecution Engine,の3つの主要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-26T21:57:21Z) - You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。
そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。
我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-09-20T16:12:32Z) - TransPrompt v2: A Transferable Prompting Framework for Cross-task Text
Classification [37.824031151922604]
そこで本研究では,テキスト分類タスク間の数ショット学習を実現するための,トランスプロンプトv2を提案する。
類似したタスクを学習するために、メタラーナーを訓練するためにマルチタスクメタ知識獲得(MMA)手順を用いる。
遠隔タスクを学習するために、タスクタイプ記述をプロンプトに注入し、タイプ内およびタイプ間プロンプト埋め込みをキャプチャする。
論文 参考訳(メタデータ) (2023-08-29T04:16:57Z) - SimpleMTOD: A Simple Language Model for Multimodal Task-Oriented
Dialogue with Symbolic Scene Representation [2.4469484645516837]
SimpleMTODは、シーケンス予測タスクとしてマルチモーダルタスク指向対話でいくつかのサブタスクをリキャストする。
シーン内のオブジェクトに対して、ローカルトークンと非ローカライズトークンの両方を導入します。
このモデルは、分類ヘッドのようなタスク固有のアーキテクチャ変更に依存しない。
論文 参考訳(メタデータ) (2023-07-10T21:16:46Z) - Prompt Tuning with Soft Context Sharing for Vision-Language Models [42.61889428498378]
本稿では,複数目的の複数ショットタスクにおいて,事前学習した視覚言語モデルを協調的にチューニングする新しい手法を提案する。
我々は,SoftCPTがシングルタスクのプロンプトチューニング方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-29T10:19:10Z) - Multimedia Generative Script Learning for Task Planning [58.73725388387305]
我々は,テキストと視覚の両モードの履歴状態を追跡することによって,次のステップを生成するために,マルチメディア生成スクリプト学習という新しいタスクを提案する。
この課題は、画像中の視覚状態をキャプチャするマルチメディアチャレンジ、目に見えないタスクを実行するための誘導チャレンジ、個々のステップで異なる情報をカバーする多様性チャレンジの3つの側面において難しい。
実験の結果,本手法は強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-08-25T19:04:28Z) - Unified Multimodal Pre-training and Prompt-based Tuning for
Vision-Language Understanding and Generation [86.26522210882699]
視覚言語理解と生成のための統一型マルチモーダル事前学習を提案する。
提案したUniVLは、理解タスクと生成タスクの両方を扱うことができる。
実験の結果,同じモデルを用いた場合,理解タスクと生成タスクとの間にはトレードオフがあることが判明した。
論文 参考訳(メタデータ) (2021-12-10T14:59:06Z) - VLM: Task-agnostic Video-Language Model Pre-training for Video
Understanding [78.28397557433544]
本稿では,タスクに依存しないマルチモーダル事前学習手法を提案する。
実験の結果,従来の手法よりも広い範囲のタスクに対して強い性能を示し,タスク固有の事前学習よりも優れていた。
論文 参考訳(メタデータ) (2021-05-20T19:13:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。