Fugu-MT 論文翻訳(概要): CPP-UT-Bench: Can LLMs Write Complex Unit Tests in C++?

論文の概要: CPP-UT-Bench: Can LLMs Write Complex Unit Tests in C++?

arxiv url: http://arxiv.org/abs/2412.02735v1
Date: Tue, 03 Dec 2024 18:35:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 21:42:00.42109
Title: CPP-UT-Bench: Can LLMs Write Complex Unit Tests in C++?
Title（参考訳）: CPP-UT-Bench: LLMはC++で複雑なユニットテストを書けるか?
Authors: Vaishnavi Bhargava, Rajat Ghosh, Debojyoti Dutta,
Abstract要約: CPP-UT-Benchは、大規模言語モデル(LLM)のC++単体テスト生成能力を測定するベンチマークデータセットである。データセットには2,653のコードと14のオープンソースC++から引き出されたユニットテストペアが含まれている。
参考スコア（独自算出の注目度）: 0.4915744683251149
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce CPP-UT-Bench, a benchmark dataset to measure C++ unit test generation capability of a large language model (LLM). CPP-UT-Bench aims to reflect a broad and diverse set of C++ codebases found in the real world. The dataset includes 2,653 {code, unit test} pairs drawn from 14 different opensource C++ codebases spanned across nine diverse domains including machine learning, software testing, parsing, standard input-output, data engineering, logging, complete expression evaluation, key value storage, and server protocols. We demonstrated the effectiveness of CPP-UT-Bench as a benchmark dataset through extensive experiments in in-context learning, parameter-efficient fine-tuning (PEFT), and full-parameter fine-tuning. We also discussed the challenges of the dataset compilation and insights we learned from in-context learning and fine-tuning experiments. Besides the CPP-UT-Bench dataset and data compilation code, we are also offering the fine-tuned model weights for further research. For nine out of ten experiments, our fine-tuned LLMs outperformed the corresponding base models by an average of more than 70%.
Abstract（参考訳）: CPP-UT-Benchは,大規模言語モデル(LLM)のC++単体テスト生成能力を測定するベンチマークデータセットである。 CPP-UT-Benchは、現実世界で見られる幅広い多様なC++コードベースを反映することを目的としている。データセットには、マシンラーニング、ソフトウェアテスト、パース、標準入力出力、データエンジニアリング、ロギング、完全な式評価、キーバリューストレージ、サーバプロトコルなど、9つの異なるドメインにまたがる14のオープンソースC++コードベースから引き出された2,653のペアが含まれている。我々は,CPP-UT-Benchをベンチマークデータセットとして,テキスト内学習,パラメータ効率細調整(PEFT),フルパラメータ細調整の広範囲な実験を行った。また、文脈内学習や微調整実験から学んだデータセットのコンパイルと洞察の課題についても論じました。 CPP-UT-Benchデータセットとデータコンパイルコードに加えて、さらなる研究のための微調整モデルの重み付けも提供しています。実験10点中9点において, 微調整LDMは, 対応するベースモデルよりも平均70%以上優れていた。

関連論文リスト

CLIMB: Class-imbalanced Learning Benchmark on Tabular Data [68.07599497425267]
クラス不均衡学習(クラス不均衡学習、class-imbalanced learning、CIL)は、マイノリティクラスが重要な結果を持っている多くの実世界のアプリケーションにおいて重要である。本稿では,クラス不均衡学習のための総合的なベンチマークであるCLIMBを提案する。 CLIMBには、さまざまなドメインと不均衡レベルにわたる73の現実世界データセットと、29の代表的なCILアルゴリズムの統一実装が含まれている。
論文参考訳（メタデータ） (2025-05-23T04:21:03Z)
A Large-scale Class-level Benchmark Dataset for Code Generation with LLMs [3.458772578520879]
我々は、13,174ドルのオープンソースのプロジェクトから収集した大規模なPythonクラスレベルのデータセットを紹介します。データセットには842,000以上のクラススケルトンが含まれている。抽出されたクラススケルトンを,全クラス実装を生成するためのGPT-4のプロンプトとして使用する。その結果, LLM 生成クラスは, 平均 ROUGE@L, BLEU, TSED スコア0.80, 0.59, 0.73 と強い語彙的および構造的類似性を示した。
論文参考訳（メタデータ） (2025-04-22T03:33:57Z)
OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。 LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文参考訳（メタデータ） (2025-04-05T02:52:16Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
CITYWALK: Enhancing LLM-Based C++ Unit Test Generation via Project-Dependency Awareness and Language-Specific Knowledge [13.592814106490724]
CITYWALKは、C++ユニットテスト生成のための新しいフレームワークである。プログラム分析を通じて、テスト中のプロジェクト内の依存関係関係の包括的な理解を提供する。プロジェクトドキュメンテーションと経験的な観察から派生したC++に関する言語固有の知識が組み込まれている。
論文参考訳（メタデータ） (2025-01-27T15:49:24Z)
A Large Language Model Approach to Identify Flakiness in C++ Projects [3.549578374095042]
不安定なテストは非決定的な振る舞いを導入し、回帰テスト結果の信頼性を損なう。コードレベルでのC++プロジェクトにおけるフレキテストの根本原因を特定するためのLLMベースのアプローチを提案する。我々は、C++データセットと既存のJavaデータセット上でMistral-7b、Llama2-7b、CodeLlama-7bモデルを微調整し、精度、リコール、精度、F1スコアで性能を評価する。
論文参考訳（メタデータ） (2024-12-16T20:20:45Z)
MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models [66.64809260956312]
MTU-Benchと呼ばれる大規模言語モデルのための多言語ツール使用ベンチマークを提案する。私たちのMTU-Benchは、既存の高品質データセットを変換して、実際のツール使用シナリオをシミュレートすることで収集されます。 MTU-Bench の総合的な実験結果から, MTU-Bench の有効性が示唆された。
論文参考訳（メタデータ） (2024-10-15T15:46:17Z)
Creating a Dataset for High-Performance Computing Code Translation using LLMs: A Bridge Between OpenMP Fortran and C++ [7.872005563259838]
定量化(CodeBLEU)法と定性的評価(人的評価)法の両方を用いて,本データセットの有効性を評価する。事前のコーディング知識を持たないモデルでは、CodeBLEUスコアで$mathbftimes5.1$が上昇した。コーディングに親しみのあるモデルでは、$mathbftimes9.9$-foldが顕著に増加した。
論文参考訳（メタデータ） (2023-07-15T02:35:51Z)
LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。 LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文参考訳（メタデータ） (2023-05-17T15:53:31Z)
DataComp: In search of the next generation of multimodal datasets [179.79323076587255]
DataCompは、Common Crawlの128億の画像テキストペアの候補プールを中心にしたデータセット実験用のテストベッドである。我々のベンチマークは、複数の計算スケールから成っている。特に、最良のベースラインであるDataComp-1Bは、ImageNetでCLIP ViT-L/14をスクラッチから79.2%のゼロショット精度でトレーニングすることが可能です。
論文参考訳（メタデータ） (2023-04-27T11:37:18Z)
The Stack: 3 TB of permissively licensed source code [22.522188673911792]
Stackは、30のプログラミング言語でパーミッシブにライセンスされたソースコードのデータセットである。以前報告されたHumanEvalとMBPPのパフォーマンスは、パーミッシブライセンスデータのみを使用して一致させることができる。
論文参考訳（メタデータ） (2022-11-20T18:15:30Z)
GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。 GEMv2は51言語で40のドキュメントデータセットをサポートする。すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文参考訳（メタデータ） (2022-06-22T17:52:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。