論文の概要: LSPRAG: LSP-Guided RAG for Language-Agnostic Real-Time Unit Test Generation
- arxiv url: http://arxiv.org/abs/2510.22210v1
- Date: Sat, 25 Oct 2025 08:19:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.916192
- Title: LSPRAG: LSP-Guided RAG for Language-Agnostic Real-Time Unit Test Generation
- Title(参考訳): LSPRAG:LSP-Guided RAG for Language-Agnostic Real-Time Unit Test Generation
- Authors: Gwihwan Go, Quan Zhang, Chijin Zhou, Zhao Wei, Yu Jiang,
- Abstract要約: 本稿では,実時間で言語に依存しない単体テスト生成に適した,簡潔な文脈検索のためのフレームワークLSPRAGを提案する。
成熟したLSP(Language Server Protocol)バックエンドを再利用することで、LSPRAGはLLMに言語対応のコンテキスト記述を提供する。
ベースラインの最高のパフォーマンスと比較して、LSPRAGはGolangで174.55%、Javaで213.31%、Pythonで31.57%までラインカバレッジを向上した。
- 参考スコア(独自算出の注目度): 19.781961858094398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated unit test generation is essential for robust software development, yet existing approaches struggle to generalize across multiple programming languages and operate within real-time development. While Large Language Models (LLMs) offer a promising solution, their ability to generate high coverage test code depends on prompting a concise context of the focal method. Current solutions, such as Retrieval-Augmented Generation, either rely on imprecise similarity-based searches or demand the creation of costly, language-specific static analysis pipelines. To address this gap, we present LSPRAG, a framework for concise-context retrieval tailored for real-time, language-agnostic unit test generation. LSPRAG leverages off-the-shelf Language Server Protocol (LSP) back-ends to supply LLMs with precise symbol definitions and references in real time. By reusing mature LSP servers, LSPRAG provides an LLM with language-aware context retrieval, requiring minimal per-language engineering effort. We evaluated LSPRAG on open-source projects spanning Java, Go, and Python. Compared to the best performance of baselines, LSPRAG increased line coverage by up to 174.55% for Golang, 213.31% for Java, and 31.57% for Python.
- Abstract(参考訳): ユニットテストの自動生成は、堅牢なソフトウェア開発には不可欠ですが、既存のアプローチでは、複数のプログラミング言語をまたいだ一般化と、リアルタイム開発での運用に苦労しています。
大きな言語モデル(LLM)は有望なソリューションを提供するが、高いカバレッジのテストコードを生成する能力は、焦点メソッドの簡潔なコンテキストの促進に依存している。
Retrieval-Augmented Generationのような現在のソリューションは、不正確な類似性に基づく検索に依存するか、あるいは高価な言語固有の静的分析パイプラインの作成を要求する。
このギャップに対処するため,実時間で言語に依存しない単体テスト生成に適した簡潔テキスト検索フレームワークLSPRAGを提案する。
LSPRAGは、既製のLSP(Language Server Protocol)バックエンドを利用して、正確なシンボル定義と参照をリアルタイムで供給する。
成熟したLSPサーバを再利用することにより、LSPRAGは言語対応のコンテキスト検索を備えたLLMを提供する。
Java、Go、PythonにまたがるオープンソースプロジェクトでLSPRAGを評価した。
ベースラインの最高のパフォーマンスと比較して、LSPRAGはGolangで174.55%、Javaで213.31%、Pythonで31.57%までラインカバレッジを向上した。
関連論文リスト
- A Multi-Language Object-Oriented Programming Benchmark for Large Language Models [61.267115598083315]
35の既存ベンチマークの調査では、3つの大きな不均衡が明らかになった。
85.7%は単一のプログラミング言語に重点を置いている。
94.3%は関数レベルまたはステートメントレベルのタスクのみを対象としている。
80%以上は平均10件未満のテストケースを含む。
論文 参考訳(メタデータ) (2025-09-30T11:30:08Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - MUG-Eval: A Proxy Evaluation Framework for Multilingual Generation Capabilities in Any Language [26.88208349402451]
本稿では,大規模言語モデルの多言語生成能力を評価する新しいフレームワークMUG-Evalを提案する。
既存のベンチマークを会話タスクに変換し、それらのタスクに対するLCMの精度を測定します。
高、中、低リソースのカテゴリにまたがる30言語にわたる8つのLLMを評価し、MUG-Evalが確立されたベンチマークと強く相関していることを見出した。
論文 参考訳(メタデータ) (2025-05-20T14:14:00Z) - mHumanEval -- A Multilingual Benchmark to Evaluate Large Language Models for Code Generation [28.531581489405745]
mHumanEvalは200以上の自然言語でプロンプトをサポートする拡張ベンチマークである。
我々は15の多様な自然言語(NL)に対して専門的な人文翻訳を提供する。
我々は,SOTA (State-of-the-art) Code LLMの多言語コード生成能力を解析して結論付ける。
論文 参考訳(メタデータ) (2024-10-19T08:44:26Z) - An Empirical Study of Large Language Models for Type and Call Graph Analysis in Python and JavaScript [3.385461018649221]
大規模言語モデル(LLM)は、ソフトウェア工学におけるその可能性のために、ますます研究されている。
我々は,Python および JavaScript プログラムのコールグラフ解析と型推論を強化するため,現在の LLM の可能性について検討する。
我々は、OpenAIのGPTシリーズやLLaMAやMistralといったオープンソースモデルを含む24のLLMを実証的に評価した。
論文 参考訳(メタデータ) (2024-10-01T11:44:29Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.1875460416205]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。