論文の概要: UniTSyn: A Large-Scale Dataset Capable of Enhancing the Prowess of Large
Language Models for Program Testing
- arxiv url: http://arxiv.org/abs/2402.03396v1
- Date: Sun, 4 Feb 2024 22:48:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 18:37:43.774813
- Title: UniTSyn: A Large-Scale Dataset Capable of Enhancing the Prowess of Large
Language Models for Program Testing
- Title(参考訳): UniTSyn: プログラムテストのための大規模言語モデルを拡張可能な大規模データセット
- Authors: Yifeng He, Jiabo Huang, Yuyang Rong, Yiwen Guo, Ethan Wang, Hao Chen
- Abstract要約: 単体テスト合成のためのLLMの高度化が可能な大規模データセットUniTSynを提案する。
Language Server Protocolを活用することで、UniSynは、プロジェクトごとの実行セットアップや言語ごとのセットアップなしでフォーカス-テストペアを収集するという挑戦的な目標を達成する。
実験により、UniTSynをベースとした自己回帰モデルを構築することにより、単体テスト表現の学習と理解において大きなメリットが得られます。
- 参考スコア(独自算出の注目度): 27.45301385265713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The remarkable capability of large language models (LLMs) in generating
high-quality code has drawn increasing attention in the software testing
community. However, existing code LLMs often demonstrate unsatisfactory
capabilities in generating accurate and complete tests since they were trained
on code snippets collected without differentiating between code for testing
purposes and other code. In this paper, we present a large-scale dataset
UniTSyn, which is capable of enhancing the prowess of LLMs for Unit Test
Synthesis. Associating tests with the tested functions is crucial for LLMs to
infer the expected behavior and the logic paths to be verified. By leveraging
Language Server Protocol, UniTSyn achieves the challenging goal of collecting
focal-test pairs without per-project execution setups or per-language
heuristics that tend to be fragile and difficult to scale. It contains 2.7
million focal-test pairs across five mainstream programming languages, making
it possible to be utilized for enhancing the test generation ability of LLMs.
The details of UniTSyn can be found in Table 1. Our experiments demonstrate
that, by building an autoregressive model based on UniTSyn, we can achieve
significant benefits in learning and understanding unit test representations,
resulting in improved generation accuracy and code coverage across all
evaluated programming languages. Code and data will be publicly available.
- Abstract(参考訳): 高品質なコードを生成するための大きな言語モデル(LLM)の顕著な能力は、ソフトウェアテストコミュニティで注目を集めています。
しかし、既存のコードLLMは、テスト目的のコードと他のコードとの差別化なしに収集されたコードスニペットで訓練されたため、正確で完全なテストを生成するのに満足できない機能を示すことが多い。
本稿では,ユニット・テスト・シンセサイザーのためのLLMの高度化が可能な大規模データセットUniTSynを提案する。
テストとテスト関数を関連付けることは、LLMが期待する振る舞いと検証すべき論理パスを推測することが重要である。
Language Server Protocolを活用することで、UniTSynは、プロジェクトごとの実行セットアップや、脆弱でスケールが難しい言語ごとのヒューリスティックを使わずに、フォーカス-テストペアを集めるという難しい目標を達成する。
メインストリームプログラミング言語5言語に270万の焦点テストペアが含まれており、LLMのテスト生成能力の向上に利用することができる。
UniTSynの詳細はTable 1で確認できる。
実験により,UniTSynをベースとした自己回帰モデルを構築することにより,単体テスト表現の学習と理解において大きなメリットが得られ,その結果,すべての評価されたプログラミング言語における生成精度とコードカバレッジが向上することが実証された。
コードとデータは公開される予定だ。
関連論文リスト
- Large Language Models as Test Case Generators: Performance Evaluation and Enhancement [3.5398126682962587]
大規模言語モデルが高品質なテストケースをいかに生み出すかを検討する。
本稿では,テストインプットとテストアウトプットの生成を分離するemphTestChainというマルチエージェントフレームワークを提案する。
以上の結果から,TestChainはベースラインのマージンを大きく上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-04-20T10:27:01Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Which Syntactic Capabilities Are Statistically Learned by Masked
Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。
これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文 参考訳(メタデータ) (2024-01-03T02:44:02Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Chain-of-Thought in Neural Code Generation: From and For Lightweight
Language Models [23.727775288971003]
大規模言語モデル(LLM)は、コード生成において顕著な可能性を示している。
本研究では,100億未満のパラメータを持つと定義される軽量言語モデル (lLM) について検討する。
これらの知見に基づいて,思考の連鎖(CoTs)を自動生成する lLM を利用した新しいアプローチ COTTON を設計する。
その結果,COTTONが生成するCoTsは,自動評価と人的評価の指標において,ベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-09T12:20:50Z) - ML-Bench: Evaluating Large Language Models for Code Generation in Repository-Level Machine Learning Tasks [76.85930757493409]
大規模言語モデル(LLM)は、コード生成ベンチマークの習熟度を示しているが、これらの結果を実用的な開発シナリオに変換することは依然として難しい。
ML-Benchは、レポジトリレベルのオープンソースライブラリを統合して機械学習タスクを完了させるLLMの機能を評価するために設計された、新しいベンチマークである。
以上の結果から, GPT-4は他のLSMよりも優れており, 課題の複雑さを浮き彫りにしたタスクは33.82%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Exploring Large Language Models for Code Explanation [3.2570216147409514]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げている。
本研究では,様々なLLMを用いて,コードスニペットの自然言語要約を生成するタスクについて検討する。
論文 参考訳(メタデータ) (2023-10-25T14:38:40Z) - Automatic Unit Test Data Generation and Actor-Critic Reinforcement
Learning for Code Synthesis [16.88062487980405]
本稿では,関数シグネチャと関連する単体テストからなるデータを自動的に取得する手法を提案する。
自動生成したトレーニングデータと組み合わせることで,事前学習された言語モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T17:13:16Z) - The Program Testing Ability of Large Language Models for Code [27.590499335039972]
CodeXやCodeT5+のようなコードのための大きな言語モデル(LLM)は、コードインテリジェンスを達成する上で大きな可能性を実証しています。
本稿では、これらのモデルの興味深い特性のシリーズを示し、LLMのプログラムテスト能力をいかに改善できるかを示す。
論文 参考訳(メタデータ) (2023-10-09T13:55:45Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。