論文の概要: CPP-UT-Bench: Can LLMs Write Complex Unit Tests in C++?
- arxiv url: http://arxiv.org/abs/2412.02735v1
- Date: Tue, 03 Dec 2024 18:35:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:10:02.989300
- Title: CPP-UT-Bench: Can LLMs Write Complex Unit Tests in C++?
- Title(参考訳): CPP-UT-Bench: LLMはC++で複雑なユニットテストを書けるか?
- Authors: Vaishnavi Bhargava, Rajat Ghosh, Debojyoti Dutta,
- Abstract要約: CPP-UT-Benchは、大規模言語モデル(LLM)のC++単体テスト生成能力を測定するベンチマークデータセットである。
データセットには2,653のコードと14のオープンソースC++から引き出されたユニットテストペアが含まれている。
- 参考スコア(独自算出の注目度): 0.4915744683251149
- License:
- Abstract: We introduce CPP-UT-Bench, a benchmark dataset to measure C++ unit test generation capability of a large language model (LLM). CPP-UT-Bench aims to reflect a broad and diverse set of C++ codebases found in the real world. The dataset includes 2,653 {code, unit test} pairs drawn from 14 different opensource C++ codebases spanned across nine diverse domains including machine learning, software testing, parsing, standard input-output, data engineering, logging, complete expression evaluation, key value storage, and server protocols. We demonstrated the effectiveness of CPP-UT-Bench as a benchmark dataset through extensive experiments in in-context learning, parameter-efficient fine-tuning (PEFT), and full-parameter fine-tuning. We also discussed the challenges of the dataset compilation and insights we learned from in-context learning and fine-tuning experiments. Besides the CPP-UT-Bench dataset and data compilation code, we are also offering the fine-tuned model weights for further research. For nine out of ten experiments, our fine-tuned LLMs outperformed the corresponding base models by an average of more than 70%.
- Abstract(参考訳): CPP-UT-Benchは,大規模言語モデル(LLM)のC++単体テスト生成能力を測定するベンチマークデータセットである。
CPP-UT-Benchは、現実世界で見られる幅広い多様なC++コードベースを反映することを目的としている。
データセットには、マシンラーニング、ソフトウェアテスト、パース、標準入力出力、データエンジニアリング、ロギング、完全な式評価、キーバリューストレージ、サーバプロトコルなど、9つの異なるドメインにまたがる14のオープンソースC++コードベースから引き出された2,653のペアが含まれている。
我々は,CPP-UT-Benchをベンチマークデータセットとして,テキスト内学習,パラメータ効率細調整(PEFT),フルパラメータ細調整の広範囲な実験を行った。
また、文脈内学習や微調整実験から学んだデータセットのコンパイルと洞察の課題についても論じました。
CPP-UT-Benchデータセットとデータコンパイルコードに加えて、さらなる研究のための微調整モデルの重み付けも提供しています。
実験10点中9点において, 微調整LDMは, 対応するベースモデルよりも平均70%以上優れていた。
関連論文リスト
- UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - CITYWALK: Enhancing LLM-Based C++ Unit Test Generation via Project-Dependency Awareness and Language-Specific Knowledge [13.592814106490724]
CITYWALKは、C++ユニットテスト生成のための新しいフレームワークである。
プログラム分析を通じて、テスト中のプロジェクト内の依存関係関係の包括的な理解を提供する。
プロジェクトドキュメンテーションと経験的な観察から派生したC++に関する言語固有の知識が組み込まれている。
論文 参考訳(メタデータ) (2025-01-27T15:49:24Z) - A Large Language Model Approach to Identify Flakiness in C++ Projects [3.549578374095042]
不安定なテストは非決定的な振る舞いを導入し、回帰テスト結果の信頼性を損なう。
コードレベルでのC++プロジェクトにおけるフレキテストの根本原因を特定するためのLLMベースのアプローチを提案する。
我々は、C++データセットと既存のJavaデータセット上でMistral-7b、Llama2-7b、CodeLlama-7bモデルを微調整し、精度、リコール、精度、F1スコアで性能を評価する。
論文 参考訳(メタデータ) (2024-12-16T20:20:45Z) - ExecRepoBench: Multi-level Executable Code Completion Evaluation [45.963424627710765]
本稿では,リポジトリレベルのベンチマークであるExecRepoBenchの作成を通じて,ソフトウェア開発におけるコード補完を強化する新しいフレームワークを紹介する。
本稿では,抽象構文木をベースとした多段階文法ベースの補完手法を提案し,様々な論理単位のコードフラグメントをマスキングする。
次に,Repo-Instruct の 7B パラメータでオープンソースの LLM を微調整し,強力なコード補完ベースラインモデル Qwen2.5-Coder-Instruct-C を生成する。
論文 参考訳(メタデータ) (2024-12-16T17:14:35Z) - MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models [66.64809260956312]
MTU-Benchと呼ばれる大規模言語モデルのための多言語ツール使用ベンチマークを提案する。
私たちのMTU-Benchは、既存の高品質データセットを変換して、実際のツール使用シナリオをシミュレートすることで収集されます。
MTU-Bench の総合的な実験結果から, MTU-Bench の有効性が示唆された。
論文 参考訳(メタデータ) (2024-10-15T15:46:17Z) - Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Creating a Dataset for High-Performance Computing Code Translation using
LLMs: A Bridge Between OpenMP Fortran and C++ [7.872005563259838]
定量化(CodeBLEU)法と定性的評価(人的評価)法の両方を用いて,本データセットの有効性を評価する。
事前のコーディング知識を持たないモデルでは、CodeBLEUスコアで$mathbftimes5.1$が上昇した。
コーディングに親しみのあるモデルでは、$mathbftimes9.9$-foldが顕著に増加した。
論文 参考訳(メタデータ) (2023-07-15T02:35:51Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - DataComp: In search of the next generation of multimodal datasets [179.79323076587255]
DataCompは、Common Crawlの128億の画像テキストペアの候補プールを中心にしたデータセット実験用のテストベッドである。
我々のベンチマークは、複数の計算スケールから成っている。
特に、最良のベースラインであるDataComp-1Bは、ImageNetでCLIP ViT-L/14をスクラッチから79.2%のゼロショット精度でトレーニングすることが可能です。
論文 参考訳(メタデータ) (2023-04-27T11:37:18Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。