論文の概要: InterEvo-TR: Interactive Evolutionary Test Generation With Readability
Assessment
- arxiv url: http://arxiv.org/abs/2401.07072v1
- Date: Sat, 13 Jan 2024 13:14:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 19:56:47.970880
- Title: InterEvo-TR: Interactive Evolutionary Test Generation With Readability
Assessment
- Title(参考訳): InterEvo-TR: 可読性評価を備えたインタラクティブ進化テスト生成
- Authors: Pedro Delgado-P\'erez and Aurora Ram\'irez and Kevin J. Valle-G\'omez
and Inmaculada Medina-Bulo and Jos\'e Ra\'ul Romero
- Abstract要約: テスタによるインタラクティブな可読性評価をEvoSuiteに組み込むことを提案する。
提案手法であるInterEvo-TRは,検索中に異なるタイミングでテスターと対話する。
その結果,中間結果の選択・提示戦略は可読性評価に有効であることが示唆された。
- 参考スコア(独自算出の注目度): 1.6874375111244329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated test case generation has proven to be useful to reduce the usually
high expenses of software testing. However, several studies have also noted the
skepticism of testers regarding the comprehension of generated test suites when
compared to manually designed ones. This fact suggests that involving testers
in the test generation process could be helpful to increase their acceptance of
automatically-produced test suites. In this paper, we propose incorporating
interactive readability assessments made by a tester into EvoSuite, a
widely-known evolutionary test generation tool. Our approach, InterEvo-TR,
interacts with the tester at different moments during the search and shows
different test cases covering the same coverage target for their subjective
evaluation. The design of such an interactive approach involves a schedule of
interaction, a method to diversify the selected targets, a plan to save and
handle the readability values, and some mechanisms to customize the level of
engagement in the revision, among other aspects. To analyze the potential and
practicability of our proposal, we conduct a controlled experiment in which 39
participants, including academics, professional developers, and student
collaborators, interact with InterEvo-TR. Our results show that the strategy to
select and present intermediate results is effective for the purpose of
readability assessment. Furthermore, the participants' actions and responses to
a questionnaire allowed us to analyze the aspects influencing test code
readability and the benefits and limitations of an interactive approach in the
context of test case generation, paving the way for future developments based
on interactivity.
- Abstract(参考訳): 自動テストケース生成は、ソフトウェアテストの通常高いコストを削減するのに有用であることが証明されている。
しかし、いくつかの研究は、手動で設計したテストスイートと比較して、生成されたテストスイートの理解に関してテスターが懐疑的であることを指摘している。
この事実は、テスト生成プロセスにテスターを巻き込むことが、自動生成テストスイートの受け入れを増やすのに役立つことを示唆している。
本稿では,テスタが作成したインタラクティブな可読性評価を,広く知られている進化的テスト生成ツールであるevosuiteに組み込む。
提案手法であるinterevo-trは,検索時に異なるタイミングでテスターと対話し,主観的評価のために同じカバレッジターゲットをカバーする異なるテストケースを示す。
このようなインタラクティブなアプローチの設計には、インタラクションのスケジュール、選択されたターゲットの多様化方法、可読性値の保存と処理の計画、リビジョンにおけるエンゲージメントのレベルをカスタマイズするメカニズムなどが含まれる。
本提案の可能性と実用性を分析するために,学術者,プロの開発者,学生の協力者を含む39名の参加者がinterevo-trと対話する制御実験を行った。
その結果,中間結果の選択・提示戦略は可読性評価に有効であることが示唆された。
さらに,参加者の行動と質問票に対する反応から,テストコード可読性に影響を与える側面と,テストケース生成の文脈における対話的アプローチのメリットと限界を分析し,対話性に基づく今後の発展への道を開くことができた。
関連論文リスト
- AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of
System-level Testing of Autonomous Vehicles [5.634825161148484]
我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。
TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。
AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
論文 参考訳(メタデータ) (2023-11-14T10:16:05Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Unveiling the Sentinels: Assessing AI Performance in Cybersecurity Peer
Review [4.081120388114928]
サイバーセキュリティの分野では、ダブルブラインドピアレビューの実践がデファクトスタンダードである。
本稿では、ピアレビューの聖杯に触れ、学術的セキュリティカンファレンスのレビューにおけるAIのパフォーマンスについて光を当てることを目的としている。
本研究では,人間レビュアーと機械学習モデルから得られた結果を比較し,評価結果の予測可能性について検討する。
論文 参考訳(メタデータ) (2023-09-11T13:51:40Z) - Measuring Software Testability via Automatically Generated Test Cases [8.17364116624769]
ソフトウェアメトリクスに基づいたテスト容易性測定のための新しい手法を提案する。
提案手法は, 自動検査生成と突然変異解析を利用して, 有効な検査症例の相対的硬度に関する証拠を定量化する。
論文 参考訳(メタデータ) (2023-07-30T09:48:51Z) - Is MultiWOZ a Solved Task? An Interactive TOD Evaluation Framework with
User Simulator [37.590563896382456]
タスク指向対話(TOD)システムのための対話型評価フレームワークを提案する。
まず,事前学習したモデルに基づいて目標指向のユーザシミュレータを構築し,ユーザシミュレータを用いて対話システムと対話して対話を生成する。
実験の結果,提案したユーザシミュレータによりトレーニングされたRLベースのTODシステムは,約98%のインフォメーションと成功率を達成することができた。
論文 参考訳(メタデータ) (2022-10-26T07:41:32Z) - Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - Discovering Boundary Values of Feature-based Machine Learning
Classifiers through Exploratory Datamorphic Testing [7.8729820663730035]
本稿では,データ型テスト手法の枠組みとして,機械学習アプリケーションをテストするための一連のテスト戦略を提案する。
探索戦略の3つの変種は、自動データモルフィックテストツールMorphyで実装されたアルゴリズムで示される。
クラス間の境界を見つける能力とコストは、手動で設計した被験者による一連の制御実験と、実際の機械学習モデルによるケーススタディによって評価される。
論文 参考訳(メタデータ) (2021-10-01T11:47:56Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Evaluating Interactive Summarization: an Expansion-Based Framework [97.0077722128397]
対話型要約のためのエンドツーエンド評価フレームワークを開発した。
我々のフレームワークには、実際のユーザセッションの収集手順と、標準に依存する評価方法が含まれています。
当社のソリューションはすべて、ベンチマークとして公開されることを意図しています。
論文 参考訳(メタデータ) (2020-09-17T15:48:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。