論文の概要: Go-UT-Bench: A Fine-Tuning Dataset for LLM-Based Unit Test Generation in Go
- arxiv url: http://arxiv.org/abs/2511.10868v1
- Date: Fri, 14 Nov 2025 00:35:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.376113
- Title: Go-UT-Bench: A Fine-Tuning Dataset for LLM-Based Unit Test Generation in Go
- Title(参考訳): Go-UT-Bench: GoにおけるLCMベースのユニットテスト生成のための微調整データセット
- Authors: Yashshi Pipalani, Hritik Raj, Rajat Ghosh, Vaishnavi Bhargava, Debojyoti Dutta,
- Abstract要約: GO UT Benchは、5264のコードとユニットテストのベンチマークデータセットである。
以上の結果から,精細化されたモデルは,75%以上のベンチマークタスクにおいて,ベースモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 0.9705942111373044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training data imbalance poses a major challenge for code LLMs. Most available data heavily over represents raw opensource code while underrepresenting broader software engineering tasks, especially in low resource languages like Golang. As a result, models excel at code autocompletion but struggle with real world developer workflows such as unit test generation. To address this gap, we introduce GO UT Bench, a benchmark dataset of 5264 pairs of code and unit tests, drawn from 10 permissively licensed Golang repositories spanning diverse domain. We evaluate its effectiveness as a fine tuning dataset across two LLM families i.e. mixture of experts and dense decoders. Our results show that finetuned models outperform their base counterparts on more than 75% of benchmark tasks.
- Abstract(参考訳): トレーニングデータの不均衡は、コードLLMにとって大きな課題となる。
ほとんどの利用可能なデータは、生のオープンソースコードを表す一方で、特にGolangのような低リソース言語では、より広範なソフトウェアエンジニアリングタスクを表現しています。
その結果、モデルはコードのオートコンプリートに優れるが、ユニットテスト生成のような現実の開発者ワークフローに苦労する。
このギャップに対処するため、GO UT Benchという5264ペアのコードとユニットテストのベンチマークデータセットを紹介します。
2つのLLMファミリー、すなわちエキスパートと高密度デコーダを混合した微調整データセットとしての有効性を評価する。
以上の結果から,精細化されたモデルは,75%以上のベンチマークタスクにおいて,ベースモデルよりも優れていた。
関連論文リスト
- OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。
各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。
LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文 参考訳(メタデータ) (2025-04-05T02:52:16Z) - UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - Evaluation of Code LLMs on Geospatial Code Generation [1.6834474847800562]
大規模言語モデル(LLM)は、データサイエンスと機械学習アプリケーションのためのPythonコードを生成することができる。
本稿では,空間的タスクの選択に基づいて,コード生成モデルの評価ベンチマークを構築した。
我々のデータセットは、地理空間的コーディングタスクを高精度に解決できる新しいモデルの開発に貢献することを期待している。
論文 参考訳(メタデータ) (2024-10-06T20:34:03Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。