論文の概要: Go-UT-Bench: A Fine-Tuning Dataset for LLM-Based Unit Test Generation in Go
- arxiv url: http://arxiv.org/abs/2511.10868v1
- Date: Fri, 14 Nov 2025 00:35:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.376113
- Title: Go-UT-Bench: A Fine-Tuning Dataset for LLM-Based Unit Test Generation in Go
- Title(参考訳): Go-UT-Bench: GoにおけるLCMベースのユニットテスト生成のための微調整データセット
- Authors: Yashshi Pipalani, Hritik Raj, Rajat Ghosh, Vaishnavi Bhargava, Debojyoti Dutta,
- Abstract要約: GO UT Benchは、5264のコードとユニットテストのベンチマークデータセットである。
以上の結果から,精細化されたモデルは,75%以上のベンチマークタスクにおいて,ベースモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 0.9705942111373044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training data imbalance poses a major challenge for code LLMs. Most available data heavily over represents raw opensource code while underrepresenting broader software engineering tasks, especially in low resource languages like Golang. As a result, models excel at code autocompletion but struggle with real world developer workflows such as unit test generation. To address this gap, we introduce GO UT Bench, a benchmark dataset of 5264 pairs of code and unit tests, drawn from 10 permissively licensed Golang repositories spanning diverse domain. We evaluate its effectiveness as a fine tuning dataset across two LLM families i.e. mixture of experts and dense decoders. Our results show that finetuned models outperform their base counterparts on more than 75% of benchmark tasks.
- Abstract(参考訳): トレーニングデータの不均衡は、コードLLMにとって大きな課題となる。
ほとんどの利用可能なデータは、生のオープンソースコードを表す一方で、特にGolangのような低リソース言語では、より広範なソフトウェアエンジニアリングタスクを表現しています。
その結果、モデルはコードのオートコンプリートに優れるが、ユニットテスト生成のような現実の開発者ワークフローに苦労する。
このギャップに対処するため、GO UT Benchという5264ペアのコードとユニットテストのベンチマークデータセットを紹介します。
2つのLLMファミリー、すなわちエキスパートと高密度デコーダを混合した微調整データセットとしての有効性を評価する。
以上の結果から,精細化されたモデルは,75%以上のベンチマークタスクにおいて,ベースモデルよりも優れていた。
関連論文リスト
- Improving Code Generation via Small Language Model-as-a-judge [14.067404766521607]
我々は、コード正当性判断として最先端のSLMをいくつか訓練し、正しい実装と間違った実装を区別する能力を評価する。
現代のSLMは,実行ベース情報を活用することなく,RanEFよりも優れていることを示す。
論文 参考訳(メタデータ) (2026-02-12T13:07:36Z) - OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。
各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。
LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文 参考訳(メタデータ) (2025-04-05T02:52:16Z) - UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。
それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。
SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文 参考訳(メタデータ) (2025-02-10T21:28:15Z) - CodeRepoQA: A Large-scale Benchmark for Software Engineering Question Answering [11.087034068992653]
ソフトウェア工学におけるリポジトリレベルの質問応答能力を評価するための大規模なベンチマークであるCodeRepoQAを紹介する。
CodeRepoQAは5つのプログラミング言語を含み、幅広いシナリオをカバーし、言語モデルの包括的な評価を可能にする。
CodeRepoQAは585,687のエントリを持ち、さまざまなソフトウェアエンジニアリングシナリオをカバーするマルチターン質問答えベンチマークである。
論文 参考訳(メタデータ) (2024-12-19T11:48:01Z) - Evaluation of Code LLMs on Geospatial Code Generation [1.6834474847800562]
大規模言語モデル(LLM)は、データサイエンスと機械学習アプリケーションのためのPythonコードを生成することができる。
本稿では,空間的タスクの選択に基づいて,コード生成モデルの評価ベンチマークを構築した。
我々のデータセットは、地理空間的コーディングタスクを高精度に解決できる新しいモデルの開発に貢献することを期待している。
論文 参考訳(メタデータ) (2024-10-06T20:34:03Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。