Fugu-MT 論文翻訳(概要): InterEvo-TR: Interactive Evolutionary Test Generation With Readability Assessment

論文の概要: InterEvo-TR: Interactive Evolutionary Test Generation With Readability Assessment

arxiv url: http://arxiv.org/abs/2401.07072v1
Date: Sat, 13 Jan 2024 13:14:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-17 19:56:47.970880
Title: InterEvo-TR: Interactive Evolutionary Test Generation With Readability Assessment
Title（参考訳）: InterEvo-TR: 可読性評価を備えたインタラクティブ進化テスト生成
Authors: Pedro Delgado-P\'erez and Aurora Ram\'irez and Kevin J. Valle-G\'omez and Inmaculada Medina-Bulo and Jos\'e Ra\'ul Romero
Abstract要約: テスタによるインタラクティブな可読性評価をEvoSuiteに組み込むことを提案する。提案手法であるInterEvo-TRは,検索中に異なるタイミングでテスターと対話する。その結果,中間結果の選択・提示戦略は可読性評価に有効であることが示唆された。
参考スコア（独自算出の注目度）: 1.6874375111244329
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automated test case generation has proven to be useful to reduce the usually high expenses of software testing. However, several studies have also noted the skepticism of testers regarding the comprehension of generated test suites when compared to manually designed ones. This fact suggests that involving testers in the test generation process could be helpful to increase their acceptance of automatically-produced test suites. In this paper, we propose incorporating interactive readability assessments made by a tester into EvoSuite, a widely-known evolutionary test generation tool. Our approach, InterEvo-TR, interacts with the tester at different moments during the search and shows different test cases covering the same coverage target for their subjective evaluation. The design of such an interactive approach involves a schedule of interaction, a method to diversify the selected targets, a plan to save and handle the readability values, and some mechanisms to customize the level of engagement in the revision, among other aspects. To analyze the potential and practicability of our proposal, we conduct a controlled experiment in which 39 participants, including academics, professional developers, and student collaborators, interact with InterEvo-TR. Our results show that the strategy to select and present intermediate results is effective for the purpose of readability assessment. Furthermore, the participants' actions and responses to a questionnaire allowed us to analyze the aspects influencing test code readability and the benefits and limitations of an interactive approach in the context of test case generation, paving the way for future developments based on interactivity.
Abstract（参考訳）: 自動テストケース生成は、ソフトウェアテストの通常高いコストを削減するのに有用であることが証明されている。しかし、いくつかの研究は、手動で設計したテストスイートと比較して、生成されたテストスイートの理解に関してテスターが懐疑的であることを指摘している。この事実は、テスト生成プロセスにテスターを巻き込むことが、自動生成テストスイートの受け入れを増やすのに役立つことを示唆している。本稿では,テスタが作成したインタラクティブな可読性評価を,広く知られている進化的テスト生成ツールであるevosuiteに組み込む。提案手法であるinterevo-trは,検索時に異なるタイミングでテスターと対話し,主観的評価のために同じカバレッジターゲットをカバーする異なるテストケースを示す。このようなインタラクティブなアプローチの設計には、インタラクションのスケジュール、選択されたターゲットの多様化方法、可読性値の保存と処理の計画、リビジョンにおけるエンゲージメントのレベルをカスタマイズするメカニズムなどが含まれる。本提案の可能性と実用性を分析するために,学術者,プロの開発者,学生の協力者を含む39名の参加者がinterevo-trと対話する制御実験を行った。その結果,中間結果の選択・提示戦略は可読性評価に有効であることが示唆された。さらに,参加者の行動と質問票に対する反応から,テストコード可読性に影響を与える側面と,テストケース生成の文脈における対話的アプローチのメリットと限界を分析し,対話性に基づく今後の発展への道を開くことができた。

関連論文リスト

TestAgent: An Adaptive and Intelligent Expert for Human Assessment [62.060118490577366]
対話型エンゲージメントによる適応テストを強化するために,大規模言語モデル(LLM)を利用したエージェントであるTestAgentを提案する。 TestAgentは、パーソナライズされた質問の選択をサポートし、テストテイカーの応答と異常をキャプチャし、動的で対話的なインタラクションを通じて正確な結果を提供する。
論文参考訳（メタデータ） (2025-06-03T16:07:54Z)
Gamifying Testing in IntelliJ: A Replicability Study [8.689182960457137]
ゲーミフィケーションは、ソフトウェアテストのような従来未完成のタスクにおいて、モチベーションとパフォーマンスを高める新しいテクニックである。これまでの研究によると、ゲーミフィケーションされたシステムは、テスタに成果とフィードバックを提供することで、ソフトウェアテストプロセスを改善する可能性がある。本稿では,IntelliJ IDEAのゲーミフィケーションプラグインであるIntelliGameの効果を再現し,検証することを目的としている。
論文参考訳（メタデータ） (2025-04-27T16:17:11Z)
Requirements-Driven Automated Software Testing: A Systematic Review [13.67495800498868]
本研究では,REDAST研究の現状を整理し,今後の方向性について考察する。この体系的な文献レビュー(SLR)は、要求入力、変換技術、テスト結果、評価方法、既存の制限を分析して、REDASTの展望を探求する。
論文参考訳（メタデータ） (2025-02-25T23:13:09Z)
Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文参考訳（メタデータ） (2025-02-18T17:12:26Z)
Adaptive Testing for LLM-Based Applications: A Diversity-based Approach [15.33985438101206]
本稿では,適応ランダムテスト(ART)のような多様性に基づくテスト手法が,プロンプトテンプレートのテストに効果的に適用可能であることを示す。いくつかの文字列ベース距離を探索する様々な実装を用いて得られた結果,本手法が試験予算の削減による故障の発見を可能にすることを確認した。
論文参考訳（メタデータ） (2025-01-23T08:53:12Z)
NLP and Education: using semantic similarity to evaluate filled gaps in a large-scale Cloze test in the classroom [0.0]
ブラジルの学生を対象にしたクローゼテストのデータを用いて,ブラジルポルトガル語(PT-BR)のWEモデルを用いて意味的類似度を測定した。 WEモデルのスコアと審査員の評価を比較した結果,GloVeが最も効果的なモデルであることが判明した。
論文参考訳（メタデータ） (2024-11-02T15:22:26Z)
Which Combination of Test Metrics Can Predict Success of a Software Project? A Case Study in a Year-Long Project Course [1.553083901660282]
テストはソフトウェア開発プロジェクトの成功を保証する上で重要な役割を担います。種々のテストが機能的適合性に与える影響を定量化できるかどうかを検討する。
論文参考訳（メタデータ） (2024-08-22T04:23:51Z)
AntEval: Evaluation of Social Interaction Competencies in LLM-Driven Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文参考訳（メタデータ） (2024-01-12T11:18:00Z)
Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of System-level Testing of Autonomous Vehicles [5.634825161148484]
我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。 TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。 AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
論文参考訳（メタデータ） (2023-11-14T10:16:05Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
Measuring Software Testability via Automatically Generated Test Cases [8.17364116624769]
ソフトウェアメトリクスに基づいたテスト容易性測定のための新しい手法を提案する。提案手法は, 自動検査生成と突然変異解析を利用して, 有効な検査症例の相対的硬度に関する証拠を定量化する。
論文参考訳（メタデータ） (2023-07-30T09:48:51Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Is MultiWOZ a Solved Task? An Interactive TOD Evaluation Framework with User Simulator [37.590563896382456]
タスク指向対話(TOD)システムのための対話型評価フレームワークを提案する。まず,事前学習したモデルに基づいて目標指向のユーザシミュレータを構築し,ユーザシミュレータを用いて対話システムと対話して対話を生成する。実験の結果,提案したユーザシミュレータによりトレーニングされたRLベースのTODシステムは,約98%のインフォメーションと成功率を達成することができた。
論文参考訳（メタデータ） (2022-10-26T07:41:32Z)
Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文参考訳（メタデータ） (2022-07-29T07:21:15Z)
Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。 ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文参考訳（メタデータ） (2021-02-20T03:29:20Z)
Evaluating Interactive Summarization: an Expansion-Based Framework [97.0077722128397]
対話型要約のためのエンドツーエンド評価フレームワークを開発した。我々のフレームワークには、実際のユーザセッションの収集手順と、標準に依存する評価方法が含まれています。当社のソリューションはすべて、ベンチマークとして公開されることを意図しています。
論文参考訳（メタデータ） (2020-09-17T15:48:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。