論文の概要: InterEvo-TR: Interactive Evolutionary Test Generation With Readability
Assessment
- arxiv url: http://arxiv.org/abs/2401.07072v1
- Date: Sat, 13 Jan 2024 13:14:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 19:56:47.970880
- Title: InterEvo-TR: Interactive Evolutionary Test Generation With Readability
Assessment
- Title(参考訳): InterEvo-TR: 可読性評価を備えたインタラクティブ進化テスト生成
- Authors: Pedro Delgado-P\'erez and Aurora Ram\'irez and Kevin J. Valle-G\'omez
and Inmaculada Medina-Bulo and Jos\'e Ra\'ul Romero
- Abstract要約: テスタによるインタラクティブな可読性評価をEvoSuiteに組み込むことを提案する。
提案手法であるInterEvo-TRは,検索中に異なるタイミングでテスターと対話する。
その結果,中間結果の選択・提示戦略は可読性評価に有効であることが示唆された。
- 参考スコア(独自算出の注目度): 1.6874375111244329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated test case generation has proven to be useful to reduce the usually
high expenses of software testing. However, several studies have also noted the
skepticism of testers regarding the comprehension of generated test suites when
compared to manually designed ones. This fact suggests that involving testers
in the test generation process could be helpful to increase their acceptance of
automatically-produced test suites. In this paper, we propose incorporating
interactive readability assessments made by a tester into EvoSuite, a
widely-known evolutionary test generation tool. Our approach, InterEvo-TR,
interacts with the tester at different moments during the search and shows
different test cases covering the same coverage target for their subjective
evaluation. The design of such an interactive approach involves a schedule of
interaction, a method to diversify the selected targets, a plan to save and
handle the readability values, and some mechanisms to customize the level of
engagement in the revision, among other aspects. To analyze the potential and
practicability of our proposal, we conduct a controlled experiment in which 39
participants, including academics, professional developers, and student
collaborators, interact with InterEvo-TR. Our results show that the strategy to
select and present intermediate results is effective for the purpose of
readability assessment. Furthermore, the participants' actions and responses to
a questionnaire allowed us to analyze the aspects influencing test code
readability and the benefits and limitations of an interactive approach in the
context of test case generation, paving the way for future developments based
on interactivity.
- Abstract(参考訳): 自動テストケース生成は、ソフトウェアテストの通常高いコストを削減するのに有用であることが証明されている。
しかし、いくつかの研究は、手動で設計したテストスイートと比較して、生成されたテストスイートの理解に関してテスターが懐疑的であることを指摘している。
この事実は、テスト生成プロセスにテスターを巻き込むことが、自動生成テストスイートの受け入れを増やすのに役立つことを示唆している。
本稿では,テスタが作成したインタラクティブな可読性評価を,広く知られている進化的テスト生成ツールであるevosuiteに組み込む。
提案手法であるinterevo-trは,検索時に異なるタイミングでテスターと対話し,主観的評価のために同じカバレッジターゲットをカバーする異なるテストケースを示す。
このようなインタラクティブなアプローチの設計には、インタラクションのスケジュール、選択されたターゲットの多様化方法、可読性値の保存と処理の計画、リビジョンにおけるエンゲージメントのレベルをカスタマイズするメカニズムなどが含まれる。
本提案の可能性と実用性を分析するために,学術者,プロの開発者,学生の協力者を含む39名の参加者がinterevo-trと対話する制御実験を行った。
その結果,中間結果の選択・提示戦略は可読性評価に有効であることが示唆された。
さらに,参加者の行動と質問票に対する反応から,テストコード可読性に影響を与える側面と,テストケース生成の文脈における対話的アプローチのメリットと限界を分析し,対話性に基づく今後の発展への道を開くことができた。
関連論文リスト
- NLP and Education: using semantic similarity to evaluate filled gaps in a large-scale Cloze test in the classroom [0.0]
ブラジルの学生を対象にしたクローゼテストのデータを用いて,ブラジルポルトガル語(PT-BR)のWEモデルを用いて意味的類似度を測定した。
WEモデルのスコアと審査員の評価を比較した結果,GloVeが最も効果的なモデルであることが判明した。
論文 参考訳(メタデータ) (2024-11-02T15:22:26Z) - Which Combination of Test Metrics Can Predict Success of a Software Project? A Case Study in a Year-Long Project Course [1.553083901660282]
テストはソフトウェア開発プロジェクトの成功を保証する上で重要な役割を担います。
種々のテストが機能的適合性に与える影響を定量化できるかどうかを検討する。
論文 参考訳(メタデータ) (2024-08-22T04:23:51Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of
System-level Testing of Autonomous Vehicles [5.634825161148484]
我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。
TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。
AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
論文 参考訳(メタデータ) (2023-11-14T10:16:05Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Measuring Software Testability via Automatically Generated Test Cases [8.17364116624769]
ソフトウェアメトリクスに基づいたテスト容易性測定のための新しい手法を提案する。
提案手法は, 自動検査生成と突然変異解析を利用して, 有効な検査症例の相対的硬度に関する証拠を定量化する。
論文 参考訳(メタデータ) (2023-07-30T09:48:51Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Is MultiWOZ a Solved Task? An Interactive TOD Evaluation Framework with
User Simulator [37.590563896382456]
タスク指向対話(TOD)システムのための対話型評価フレームワークを提案する。
まず,事前学習したモデルに基づいて目標指向のユーザシミュレータを構築し,ユーザシミュレータを用いて対話システムと対話して対話を生成する。
実験の結果,提案したユーザシミュレータによりトレーニングされたRLベースのTODシステムは,約98%のインフォメーションと成功率を達成することができた。
論文 参考訳(メタデータ) (2022-10-26T07:41:32Z) - Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Evaluating Interactive Summarization: an Expansion-Based Framework [97.0077722128397]
対話型要約のためのエンドツーエンド評価フレームワークを開発した。
我々のフレームワークには、実際のユーザセッションの収集手順と、標準に依存する評価方法が含まれています。
当社のソリューションはすべて、ベンチマークとして公開されることを意図しています。
論文 参考訳(メタデータ) (2020-09-17T15:48:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。