論文の概要: Retrieval-Augmented Test Generation: How Far Are We?
- arxiv url: http://arxiv.org/abs/2409.12682v2
- Date: Thu, 16 Oct 2025 18:18:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.298187
- Title: Retrieval-Augmented Test Generation: How Far Are We?
- Title(参考訳): Retrieval-Augmented Test Generation: どこまで?
- Authors: Jiho Shin, Nima Shiri Harzevili, Reem Aleithan, Hadi Hemmati, Song Wang,
- Abstract要約: 機械学習(ML/DL)APIにおけるRAGベースの単体テスト生成の有効性について検討する。
APIドキュメント(公式ガイドライン)、GitHubイシュー(開発者報告の解決)、StackOverflow Q&Aの3つのドメイン固有のソースを調べます。
我々の研究は、広く使われているPythonベースのML/DLライブラリ、PyTorch、Scikit-learn、Google JAX、XGBoostの5つに焦点を当てている。
- 参考スコア(独自算出の注目度): 10.473792371852015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval Augmented Generation (RAG) has advanced software engineering tasks but remains underexplored in unit test generation. To bridge this gap, we investigate the efficacy of RAG-based unit test generation for machine learning (ML/DL) APIs and analyze the impact of different knowledge sources on their effectiveness. We examine three domain-specific sources for RAG: (1) API documentation (official guidelines), (2) GitHub issues (developer-reported resolutions), and (3) StackOverflow Q&As (community-driven solutions). Our study focuses on five widely used Python-based ML/DL libraries, TensorFlow, PyTorch, Scikit-learn, Google JAX, and XGBoost, targeting the most-used APIs. We evaluate four state-of-the-art LLMs -- GPT-3.5-Turbo, GPT-4o, Mistral MoE 8x22B, and Llama 3.1 405B -- across three strategies: basic instruction prompting, Basic RAG, and API-level RAG. Quantitatively, we assess syntactical and dynamic correctness and line coverage. While RAG does not enhance correctness, RAG improves line coverage by 6.5% on average. We found that GitHub issues result in the best improvement in line coverage by providing edge cases from various issues. We also found that these generated unit tests can help detect new bugs. Specifically, 28 bugs were detected, 24 unique bugs were reported to developers, ten were confirmed, four were rejected, and ten are awaiting developers' confirmation. Our findings highlight RAG's potential in unit test generation for improving test coverage with well-targeted knowledge sources. Future work should focus on retrieval techniques that identify documents with unique program states to optimize RAG-based unit test generation further.
- Abstract(参考訳): Retrieval Augmented Generation (RAG) には高度なソフトウェアエンジニアリングタスクがあるが、単体テスト生成では未熟である。
このギャップを埋めるために、機械学習(ML/DL)APIにおけるRAGベースの単体テスト生成の有効性を調査し、異なる知識源の効果を分析する。
1)APIドキュメンテーション(公式ガイドライン)、(2)GitHubイシュー(開発者報告の解決)、(3)StackOverflow Q&A(コミュニティ駆動ソリューション)の3つのドメイン固有のソースについて検討する。
我々の研究は、広く使われている5つのPythonベースのML/DLライブラリ、TensorFlow、PyTorch、Scikit-learn、Google JAX、XGBoostに焦点を当て、最も使われているAPIをターゲットにしています。
GPT-3.5-Turbo, GPT-4o, Mistral MoE 8x22B, Llama 3.1 405Bの4つのLCMを, 基本命令プロンプト, Basic RAG, APIレベルRAGの3つの戦略で評価した。
定量的に,構文的および動的正当性およびラインカバレッジを評価する。
RAGは正確性を高めないが、RAGは平均6.5%のラインカバレッジを改善している。
GitHubの問題は、さまざまな問題からエッジケースを提供することで、ラインカバレッジの最高の改善をもたらすことが分かりました。
生成したユニットテストは、新たなバグの検出にも役立ちます。
具体的には、28のバグが検出され、24のユニークなバグが開発者に報告され、10のバグが確認され、4のバグが却下され、10のバグが開発者の確認を待っている。
本研究は, 単体テスト生成におけるRAGの可能性を明らかにするものである。
今後は、RAGベースのユニットテスト生成をさらに最適化するために、独自のプログラム状態を持つ文書を識別する検索技術に焦点をあてるべきである。
関連論文リスト
- GenKI: Enhancing Open-Domain Question Answering with Knowledge Integration and Controllable Generation in Large Language Models [75.25348392263676]
オープンドメイン質問応答(OpenQA)は自然言語処理(NLP)の基盤である。
我々は,知識統合と制御可能生成を探求し,OpenQAの性能向上を目的としたGenKIという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T08:18:33Z) - LRASGen: LLM-based RESTful API Specification Generation [3.420331911153286]
我々は,Large Language Models (LLM) を用いたAPIの OpenAPI Specification (OAS) 仕様を生成するための新しいアプローチを提案する。
既存のツールやメソッドと比較して、LRASGenは実装が不完全である場合でもOASを生成することができる(部分的なコード、アノテーション/コメントなど)。
LRASGenで作成された仕様は、開発者が提供する仕様よりも平均48.85%の欠落したエンティティをカバーしている。
論文 参考訳(メタデータ) (2025-04-23T15:52:50Z) - Test Amplification for REST APIs via Single and Multi-Agent LLM Systems [1.6499388997661122]
単一エージェントとマルチエージェントのLLMシステムがREST APIテストスイートを増幅する方法について示す。
評価では、APIカバレッジの向上、テスト中のAPIの多数のバグの特定、および両アプローチの計算コストとエネルギー消費に関する洞察を示す。
論文 参考訳(メタデータ) (2025-04-10T20:19:50Z) - When LLMs Meet API Documentation: Can Retrieval Augmentation Aid Code Generation Just as It Helps Developers? [10.204379646375182]
Retrieval-augmented Generation (RAG) は、学習前の知識を超えて、大規模言語モデルの能力(LLM)を拡大する能力を示している。
検索と生成のための新たな知識として,あまり一般的でないAPIライブラリのドキュメンテーションを使用することの有効性に影響を与える要因について検討する。
論文 参考訳(メタデータ) (2025-03-19T14:08:47Z) - Your Fix Is My Exploit: Enabling Comprehensive DL Library API Fuzzing with Large Language Models [49.214291813478695]
AIアプリケーションで広く使用されているディープラーニング(DL)ライブラリは、オーバーフローやバッファフリーエラーなどの脆弱性を含むことが多い。
従来のファジィングはDLライブラリの複雑さとAPIの多様性に悩まされている。
DLライブラリのためのLLM駆動ファジィ手法であるDFUZZを提案する。
論文 参考訳(メタデータ) (2025-01-08T07:07:22Z) - ExploraCoder: Advancing code generation for multiple unseen APIs via planning and chained exploration [70.26807758443675]
ExploraCoderはトレーニング不要のフレームワークで、大規模な言語モデルにコードソリューションで見えないAPIを呼び出す権限を与える。
ExploraCoderは,事前のAPI知識を欠いたモデルのパフォーマンスを著しく向上させ,NAGアプローチの11.24%,pass@10の事前トレーニングメソッドの14.07%を絶対的に向上させることを示す。
論文 参考訳(メタデータ) (2024-12-06T19:00:15Z) - Reinforcement Learning-Based REST API Testing with Multi-Coverage [4.127886193201882]
MUCORESTは、Qラーニングを利用してコードカバレッジと出力カバレッジを最大化する、新しい強化学習(RL)ベースのAPIテストアプローチである。
MUCORESTは、発見されたAPIバグの数で、最先端のAPIテストアプローチを11.6-261.1%上回っている。
論文 参考訳(メタデータ) (2024-10-20T14:20:23Z) - APITestGenie: Automated API Test Generation through Generative AI [2.0716352593701277]
APITestGenieはビジネス要件とAPI仕様から実行可能なAPIテストスクリプトを生成する。
10の現実世界のAPIを使った実験では、ツールが有効なテストスクリプトを57%生成した。
人間の介入は、CI/CDパイプラインに統合される前に生成されたスクリプトを検証または洗練するために推奨される。
論文 参考訳(メタデータ) (2024-09-05T18:02:41Z) - RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation [54.707460684650584]
大きな言語モデル(LLM)は対話、推論、知識保持における人間レベルの能力を示す。
現在の研究は、LLMに外部知識を組み込むことによって、このボトルネックに対処している。
RAGLABはモジュール的で研究指向のオープンソースライブラリで、6つの既存のアルゴリズムを再現し、RAGアルゴリズムを調査するための包括的なエコシステムを提供する。
論文 参考訳(メタデータ) (2024-08-21T07:20:48Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - Leveraging Large Language Models to Improve REST API Testing [51.284096009803406]
RESTGPTはAPI仕様を入力として、機械解釈可能なルールを抽出し、仕様内の自然言語記述からサンプルパラメータ値を生成する。
評価の結果、RESTGPTはルール抽出と値生成の両方において既存の技術よりも優れています。
論文 参考訳(メタデータ) (2023-12-01T19:53:23Z) - A Simple Baseline for Knowledge-Based Visual Question Answering [78.00758742784532]
本稿では,知識に基づく視覚質問応答(KB-VQA)の問題について述べる。
本論文の主な貢献は,よりシンプルで容易に再現可能なパイプラインを提案することである。
近年のアプローチとは対照的に,本手法はトレーニングフリーであり,外部データベースやAPIへのアクセスを必要とせず,OK-VQAおよびA-OK-VQAデータセット上で最先端の精度を実現する。
論文 参考訳(メタデータ) (2023-10-20T15:08:17Z) - Automatic Unit Test Generation for Deep Learning Frameworks based on API
Knowledge [11.523398693942413]
ディープラーニングフレームワークのAPIの単体テストケースを生成するために,MUTesterを提案する。
まず、APIドキュメントからAPI制約をマイニングするための18のルールを提案する。
次に、頻繁なアイテムセットマイニング技術を使用して、マシンラーニングAPI関連のコードフラグメントの大規模なコーパスからAPI使用パターンをマイニングします。
論文 参考訳(メタデータ) (2023-07-01T18:34:56Z) - Generate then Select: Open-ended Visual Question Answering Guided by
World Knowledge [155.81786738036578]
Open-ended Visual Question Answering (VQA)タスクでは、視覚と自然言語の入力をAIモデルが共同で推論する必要がある。
GPT-3のような事前訓練された言語モデル(PLM)がこのタスクに適用され、強力な世界知識源であることが示されている。
我々は,世界的知識によって導かれるジェネレータ選択戦略をデプロイする新しいVQAパイプラインであるRASOを提案する。
論文 参考訳(メタデータ) (2023-05-30T08:34:13Z) - GeneGPT: Augmenting Large Language Models with Domain Tools for Improved
Access to Biomedical Information [18.551792817140473]
我々は,国立バイオテクノロジー情報センターの Web API を LLM に教える新しい方法である GeneGPT を提案する。
CodexにNCBI Web APIによるGeneTuringテストの解決を、テキスト内学習と拡張復号アルゴリズムにより促す。
GeneGPTは、平均スコア0.83のGeneTuringベンチマークの8つのタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-04-19T13:53:19Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。