Fugu-MT 論文翻訳(概要): Understanding LLM-Driven Test Oracle Generation

論文の概要: Understanding LLM-Driven Test Oracle Generation

arxiv url: http://arxiv.org/abs/2601.05542v1
Date: Fri, 09 Jan 2026 05:51:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-12 17:41:49.852057
Title: Understanding LLM-Driven Test Oracle Generation
Title（参考訳）: LLM駆動テストOracle生成を理解する
Authors: Adam Bodicoat, Gunel Jahangirova, Valerio Terragni,
Abstract要約: 既存のテクニックは、テスト対象のクラスの実装された振る舞いを述語する回帰オラクルを主に生成します。 Foundation Models(FM)、特にLarge Language Models(LLM)の台頭に伴い、意図した振る舞いを反映したテストオラクルを生成する新たな機会がある。本稿では,ソフトウェア障害を露呈するテストオラクル生成におけるLCMの有効性に関する実証的研究を行う。
参考スコア（独自算出の注目度）: 4.75370717332176
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automated unit test generation aims to improve software quality while reducing the time and effort required for creating tests manually. However, existing techniques primarily generate regression oracles that predicate on the implemented behavior of the class under test. They do not address the oracle problem: the challenge of distinguishing correct from incorrect program behavior. With the rise of Foundation Models (FMs), particularly Large Language Models (LLMs), there is a new opportunity to generate test oracles that reflect intended behavior. This positions LLMs as enablers of Promptware, where software creation and testing are driven by natural-language prompts. This paper presents an empirical study on the effectiveness of LLMs in generating test oracles that expose software failures. We investigate how different prompting strategies and levels of contextual input impact the quality of LLM-generated oracles. Our findings offer insights into the strengths and limitations of LLM-based oracle generation in the FM era, improving our understanding of their capabilities and fostering future research in this area.
Abstract（参考訳）: 自動ユニットテスト生成は、手動でテストを作成するのに必要な時間と労力を削減しながら、ソフトウェア品質を改善することを目的としている。しかし、既存のテクニックは、主にテスト中のクラスの実装された振る舞いを述語する回帰オラクルを生成します。それらは、正しいプログラム動作と間違ったプログラム動作を区別することの難しさという、オラクルの問題に対処しない。 Foundation Models(FM)、特にLarge Language Models(LLM)の台頭に伴い、意図した振る舞いを反映したテストオラクルを生成する新たな機会がある。これにより、LLMはPromptwareのイネーブラーとして位置づけられ、ソフトウェアの作成とテストは自然言語のプロンプトによって駆動される。本稿では,ソフトウェア障害を露呈するテストオラクル生成におけるLCMの有効性に関する実証的研究を行う。本研究は,LLM生成オラクルの品質に異なる刺激戦略と文脈入力レベルがどのような影響を及ぼすかを検討する。 FM時代におけるLLMによるオラクル生成の強みと限界についての知見を提供し,その能力の理解を深め,今後の研究の促進に寄与する。

関連論文リスト

Metamorphic Testing of Large Language Models for Natural Language Processing [2.2302915692528367]
近年,大規模言語モデル (LLM) を用いて自然言語処理 (NLP) タスクが普及している。これに対する障害のひとつは、ラベル付きデータセットの可用性が限られていることだ。メタモルフィックテスト(MT)は、このオラクル問題を緩和する一般的なテスト手法である。
論文参考訳（メタデータ） (2025-11-03T22:48:19Z)
TestWeaver: Execution-aware, Feedback-driven Regression Testing Generation with Large Language Models [5.871736617580623]
回帰テストは、コードの変更が意図せずに既存の機能を壊さないようにする。大規模言語モデル(LLM)の最近の進歩は、回帰テストのためのテスト生成を自動化することを約束している。テスト生成をより効率的にガイドするために、軽量なプログラム分析を統合する新しいアプローチであるTestWeaverを提案する。
論文参考訳（メタデータ） (2025-08-02T08:13:02Z)
Hallucination to Consensus: Multi-Agent LLMs for End-to-End Test Generation [2.794277194464204]
ユニットテストは、ソフトウェアの正しさを保証する上で重要な役割を担います。従来の手法は、高いコードカバレッジを達成するために、検索ベースまたはランダム化アルゴリズムに依存していた。 CANDORはJavaにおける自動単体テスト生成のための新しいプロンプトエンジニアリングベースのLLMフレームワークである。
論文参考訳（メタデータ） (2025-06-03T14:43:05Z)
Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。 LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文参考訳（メタデータ） (2025-01-24T06:39:38Z)
ToolScan: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
TOOLSCANは、ツール使用タスクのLLM出力におけるエラーパターンを特定するための新しいベンチマークである。もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。研究者たちは、TOOLSCANのこれらの洞察を使って、エラー軽減戦略をガイドすることができる。
論文参考訳（メタデータ） (2024-11-20T18:56:22Z)
Do LLMs generate test oracles that capture the actual or the expected program behaviour? [7.772338538073763]
大きな言語モデル(LLM)は、開発者のようなコードやテストケースを生成するために、膨大な量のデータに基づいて訓練されています。この調査には、開発者によって書かれ、自動生成されるテストケースと、24のオープンソースJavaリポジトリのオーラクルが含まれている。 LLMは正しいオーラクルを分類するよりもテストオーラクルを生成する方が優れており、コードが有意義なテスト名や変数名を含む場合、よりよいテストオーラクルを生成することができる。
論文参考訳（メタデータ） (2024-10-28T15:37:06Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Test Oracle Automation in the era of LLMs [52.69509240442899]
大規模言語モデル(LLM)は、多様なソフトウェアテストタスクに取り組むのに顕著な能力を示した。本研究の目的は, 各種のオラクル生成時に生じる課題とともに, LLMs によるオラクルの自動化の可能性について検討することである。
論文参考訳（メタデータ） (2024-05-21T13:19:10Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。本稿では,この新技術について概観する。
論文参考訳（メタデータ） (2023-08-06T18:38:52Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。