Fugu-MT 論文翻訳(概要): Test Design and Review Argumentation in AI-Assisted Test Generation

論文の概要: Test Design and Review Argumentation in AI-Assisted Test Generation

arxiv url: http://arxiv.org/abs/2604.22473v1
Date: Fri, 24 Apr 2026 11:51:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-27 15:36:26.441402
Title: Test Design and Review Argumentation in AI-Assisted Test Generation
Title（参考訳）: AIを用いたテスト生成におけるテスト設計とレビューの議論
Authors: Eduard Paul Enoiu, Robert Feldt,
Abstract要約: 本稿では,AIを用いたテスト生成のための概念分類法と構造化テンプレートを提案する。テストケースの特徴は、そのテスト目標、クレーム、理性、エビデンスである。
参考スコア（独自算出の注目度）: 2.973572497882374
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: AI assistants can increasingly generate and evolve test cases. The challenge is no longer merely to produce them, but also to help engineers understand why a generated artefact exists and what supports it. Existing work has focused on classifying testing techniques, linking requirements to tests and structuring system assurance arguments, but it does not explicitly represent the argumentation behind individual test design decisions. We propose a conceptual taxonomy and a structured template for AI-assisted test generation that characterizes a test case by its test goal, claim, reason, and evidence. The taxonomy is intended for both constructive use during test design and retrospective use during review, to assess the quality of the attached argument rather than the plausibility or objective value of the generated test cases.
Abstract（参考訳）: AIアシスタントはますますテストケースを生成して進化させることができる。課題は、単に生成するだけでなく、生成したアーティファクトが存在する理由とそれをサポートするものを理解する上でも役立ちます。既存の作業では、テストテクニックの分類、要件とテストのリンク、システム保証の議論の構造化に重点を置いていますが、個々のテスト設計決定の背後にある議論を明確に示していません。本稿では,そのテスト目標,クレーム,理性,エビデンスを特徴付けるAI支援テスト生成のための概念分類法と構造化テンプレートを提案する。分類は、テスト設計時の構成的使用とレビュー中のレトロスペクティブ使用の両方を対象としており、生成されたテストケースの妥当性や客観的な価値よりも、付随する引数の品質を評価する。

関連論文リスト

VIBEPASS: Can Vibe Coders Really Pass the Vibe Check? [46.85901599242161]
emphFault-Triggering Test Generation(FT-Test)とemphFault-targeted Program repair(FPR)の2つの組み合わせタスクを評価した。故障対象推論は一般的な符号化能力ではスケールしないことがわかった。自己生成テストが障害の発見に成功すると、結果として得られた修復結果が外部から提供されたテストによってガイドされた修復と一致したり、性能が低下する。
論文参考訳（メタデータ） (2026-03-16T21:14:28Z)
Automatically Generating Single-Responsibility Unit Tests [0.0]
生成されたテストに事前プロセス構造を提供することの効果を検討することを目的としています。進化のための異なるテスト表現を実装し,それらがカバレッジ,障害検出,理解可能性に与える影響を評価することを提案する。
論文参考訳（メタデータ） (2025-04-08T21:05:04Z)
Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文参考訳（メタデータ） (2025-02-19T15:32:11Z)
StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。 StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文参考訳（メタデータ） (2024-12-23T22:08:40Z)
System Test Case Design from Requirements Specifications: Insights and Challenges of Using ChatGPT [1.9282110216621835]
本稿では,Large Language Models (LLMs) を用いてソフトウェア要件仕様 (SRS) 文書からテストケース設計を作成することの有効性について検討する。生成したテストケースの約87%が有効で、残りの13%は適用不可能か冗長かのどちらかでした。
論文参考訳（メタデータ） (2024-12-04T20:12:27Z)
Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文参考訳（メタデータ） (2024-10-31T15:06:16Z)
Leveraging Large Language Models for Enhancing the Understandability of Generated Unit Tests [4.574205608859157]
我々は,検索ベースのソフトウェアテストと大規模言語モデルを組み合わせたUTGenを導入し,自動生成テストケースの理解性を向上する。 UTGenテストケースで課題に取り組む参加者は、最大33%のバグを修正し、ベースラインテストケースと比較して最大20%の時間を使用できます。
論文参考訳（メタデータ） (2024-08-21T15:35:34Z)
Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文参考訳（メタデータ） (2023-10-30T09:46:19Z)
Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
A New Score for Adaptive Tests in Bayesian and Credal Networks [64.80185026979883]
テストは、そのシークエンスと質問数とが、テイカーの推定スキルに基づいて動的に調整されるときに適応する。後部確率のモードに基づいて、別のスコアの族を提示するので、説明し易い。
論文参考訳（メタデータ） (2021-05-25T20:35:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。