論文の概要: Toward Generation of Test Cases from Task Descriptions via History-aware Planning
- arxiv url: http://arxiv.org/abs/2504.14336v1
- Date: Sat, 19 Apr 2025 16:03:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 01:17:52.804053
- Title: Toward Generation of Test Cases from Task Descriptions via History-aware Planning
- Title(参考訳): 履歴対応計画によるタスク記述からテストケースの生成に向けて
- Authors: Duy Cao, Phu Nguyen, Vy Le, Tien N. Nguyen, Vu Nguyen,
- Abstract要約: 自動Webテストでは、自然言語タスク記述からテストスクリプトを生成することがテスト生成プロセスの強化に不可欠である。
このアクティビティには、将来のテストアクティビティのためのテストスクリプトを形成するために、アクションの正しいシーケンスを作成することが含まれる。
HxAgentは、1)現在の内容と実行可能なアクションの観察、2)以前のWeb状態とアクションの短期記憶、3)正しいアクションシーケンスによる長期的な経験、に基づいて次のアクションを決定するための反復的大規模言語モデルエージェントプランニング手法である。
- 参考スコア(独自算出の注目度): 8.467983784989805
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In automated web testing, generating test scripts from natural language task descriptions is crucial for enhancing the test generation process. This activity involves creating the correct sequences of actions to form test scripts for future testing activities. Current state-of-the-art approaches are limited in generating these action sequences, as they either demand substantial manual effort for human demonstrations or fail to consider the history of previous web content and actions to decide the next action. In this paper, we introduce HxAgent, an iterative large language model agent planning approach that determines the next action based on: 1) observations of the current contents and feasible actions, 2) short-term memory of previous web states and actions, and 3) long-term experience with (in)correct action sequences. The agent generates a sequence of actions to perform a given task, which is effectively an automated test case to verify the task. We conducted an extensive empirical evaluation of HxAgent using two datasets. On the MiniWoB++ dataset, our approach achieves 97% exact-match accuracy that is comparable to the best baselines while eliminating the need for human demonstrations required by those methods. For complex tasks requiring navigation through multiple actions and screens, HxAgent achieves an average 82% exact-match. On the second dataset, comprising 350 task instances across seven popular websites, including YouTube, LinkedIn, Facebook, and Google, HxAgent achieves high performance, with 87% of the action sequences exactly matching the ground truth and a prefix-match of 93%, outperforming the baseline by 59%.
- Abstract(参考訳): 自動Webテストでは、自然言語タスク記述からテストスクリプトを生成することがテスト生成プロセスの強化に不可欠である。
このアクティビティには、将来のテストアクティビティのためのテストスクリプトを形成するために、アクションの正しいシーケンスを作成することが含まれる。
現在の最先端のアプローチは、人間のデモのためにかなりの手作業を必要とするか、または次のアクションを決定するために以前のWebコンテンツとアクションの歴史を考慮できないため、これらのアクションシーケンスの生成において制限されている。
本稿では,HxAgentについて紹介する。HxAgentは,次のアクションを決定する,反復的な大規模言語モデルエージェント計画手法である。
1)現在の内容及び実行可能な行動の観察。
2)過去のWeb状態と行動の短期記憶
3) 正しい動作シーケンスによる長期経験。
エージェントは、与えられたタスクを実行するための一連のアクションを生成する。
2つのデータセットを用いてHxAgentを広範囲に評価した。
MiniWoB++データセットでは,これらの手法が必要とする人間によるデモンストレーションを不要にしながら,最高のベースラインに匹敵する97%の正確なマッチング精度を実現している。
複数のアクションやスクリーンを通してナビゲーションを必要とする複雑なタスクに対して、HxAgentは平均82%の正確なマッチングを達成する。
第2のデータセットでは、YouTube、LinkedIn、Facebook、Googleを含む7つの人気のあるWebサイトの350のタスクインスタンスで構成され、HxAgentは高いパフォーマンスを実現している。
関連論文リスト
- Iterative Trajectory Exploration for Multimodal Agents [69.32855772335624]
本研究では,マルチモーダルエージェント,すなわちSPORTのオンライン自己探索手法を提案する。
Sportは、タスク合成、ステップサンプリング、ステップ検証、優先度調整の4つの反復的なコンポーネントを通じて動作する。
GTAとGAIAのベンチマークでは、Sport Agentは6.41%と3.64%の改善を達成している。
論文 参考訳(メタデータ) (2025-04-30T12:01:27Z) - Boosting Virtual Agent Learning and Reasoning: A Step-wise, Multi-dimensional, and Generalist Reward Model with Benchmark [72.46357004059661]
ステップワイドな多次元ジェネリスト・リワードモデルであるSimisalを提案する。
エージェントトレーニング用のきめ細かい信号を提供し、推論時間スケーリングのためのより良いアクションを選択することができる。
仮想エージェント領域の最初のベンチマークをステップワイドで多次元の報酬モデルトレーニングと評価のために導入する。
論文 参考訳(メタデータ) (2025-03-24T13:30:47Z) - HiAgent: Hierarchical Working Memory Management for Solving Long-Horizon Agent Tasks with Large Language Model [39.169389255970806]
HiAgentは、サブゴールをメモリチャンクとして活用して、LLM(Large Language Model)ベースのエージェントの動作メモリを階層的に管理するフレームワークである。
その結果,HiAgentは成功率を2倍に向上し,平均ステップ数を3.8倍に削減した。
論文 参考訳(メタデータ) (2024-08-18T17:59:49Z) - Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - Android in the Zoo: Chain-of-Action-Thought for GUI Agents [38.07337874116759]
この研究は、前回のアクション、現在のスクリーン、さらに重要なことは、どのアクションを実行するべきか、選択されたアクションによって導かれる結果について、アクション思考を記述する、Chain-of-Action-Thought (dubed CoAT)を提示する。
我々は,3つの既成LMMのゼロショット設定において,CoATは従来のコンテキストモデルと比較して,動作予測を大幅に改善することを示した。
このラインでの研究をさらに促進するために,AitZ(Android-In-The-Zoo)という,18,643のスクリーンアクションペアとチェーン・オブ・アクションを組み合わせたデータセットを構築した。
論文 参考訳(メタデータ) (2024-03-05T07:09:35Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - JOADAA: joint online action detection and action anticipation [2.7792814152937027]
アクション予測は、過去のイベントと将来のイベントを結びつけることによって、将来のアクションを予測する。
オンラインアクション検出は、ストリーミング形式でアクションを予測するタスクである。
行動予測とオンライン行動検出を組み合わせることで、我々のアプローチは将来の情報の欠落した依存関係をカバーできる。
論文 参考訳(メタデータ) (2023-09-12T11:17:25Z) - QUERT: Continual Pre-training of Language Model for Query Understanding
in Travel Domain Search [15.026682829320261]
旅行ドメイン探索におけるQUERy理解のための継続事前学習型言語モデルQUERTを提案する。
Quertは、旅行ドメイン検索におけるクエリの特徴に対して、4つの調整済み事前訓練タスクで共同で訓練されている。
オンラインビジネスにおけるQUERTの改善を確認するため、QUERTをデプロイし、Fliggy APP上でA/Bテストを実施します。
論文 参考訳(メタデータ) (2023-06-11T15:39:59Z) - Non-Sequential Graph Script Induction via Multimedia Grounding [129.83134296316493]
我々は、学習タスクのための明示的なグラフスクリプトを生成することと、部分的なステップシーケンスが与えられた将来のステップを予測することの両方が可能なスクリプト知識モデルを訓練する。
人間による評価では、我々のモデルはWikiHowの線形ベースラインを48.76%上回り、シーケンシャルなステップ関係と非シーケンシャルなステップ関係を捉えた。
論文 参考訳(メタデータ) (2023-05-27T18:13:17Z) - Neural Task Success Classifiers for Robotic Manipulation from Few Real
Demonstrations [1.7205106391379026]
本稿では,いくつかの実演からのみタスク完了を分類する新しい分類器を提案する。
我々は、完全連結型、完全畳み込み型、シーケンス2配列型、ドメイン適応型など、異なるニューラル分類器を比較した。
我々のモデル、すなわちドメイン適応とタイミング特徴を備えた完全な畳み込みニューラルネットワークは、タスク間で平均的な分類精度97.3%と95.5%を達成する。
論文 参考訳(メタデータ) (2021-07-01T19:58:16Z) - Document-Level Event Argument Extraction by Conditional Generation [75.73327502536938]
イベント抽出は、長い間IEコミュニティで文レベルのタスクとして扱われてきた。
タスクを条件生成型イベントテンプレートとして定式化することで,ドキュメントレベルのニューラルイベント引数抽出モデルを提案する。
また、新しいドキュメントレベルのイベント抽出ベンチマークデータセットWikiEventsもコンパイルします。
論文 参考訳(メタデータ) (2021-04-13T03:36:38Z) - Action Sequence Predictions of Vehicles in Urban Environments using Map
and Social Context [152.0714518512966]
本研究は、現実の運転シナリオにおける周辺車両の今後の行動の順序を予測する問題について研究する。
最初のコントリビューションは、現実世界の運転シナリオに記録された軌跡をHDマップの助けを借りてアクションシーケンスに変換する自動手法である。
第2のコントリビューションは、よく知られたトラフィックエージェント追跡と予測データセットArgoverseへのメソッドの適用であり、結果として228,000のアクションシーケンスが生成される。
第3のコントリビューションは,交通エージェント,地図情報,社会状況の過去の位置と速度を,単一エンドツーエンドのトレーニング可能なニューラルネットワークに統合して,新たな行動シーケンス予測手法を提案することである。
論文 参考訳(メタデータ) (2020-04-29T14:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。