Fugu-MT 論文翻訳(概要): An LLM-based Readability Measurement for Unit Tests' Context-aware Inputs

論文の概要: An LLM-based Readability Measurement for Unit Tests' Context-aware Inputs

arxiv url: http://arxiv.org/abs/2407.21369v1
Date: Wed, 31 Jul 2024 06:35:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-01 18:41:45.411506
Title: An LLM-based Readability Measurement for Unit Tests' Context-aware Inputs
Title（参考訳）: LLMによる単体テストの文脈認識入力の可読性測定
Authors: Zhichao Zhou, Yutian Tang, Yun Lin, Jingzhu He,
Abstract要約: 自動テストの可読性は、コードの理解とメンテナンスに不可欠である。 UnderlineContext UnderlineConsistency UnderlineCriterion(別名C3)は可読性測定ツールである。
参考スコア（独自算出の注目度）: 3.8566905130795552
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automated test techniques usually generate unit tests with higher code coverage than manual tests. However, the readability of automated tests is crucial for code comprehension and maintenance. The readability of unit tests involves many aspects. In this paper, we focus on test inputs. The central limitation of existing studies on input readability is that they focus on test codes alone without taking the tested source codes into consideration, making them either ignore different source codes' different readability requirements or require manual efforts to write readable inputs. However, we observe that the source codes specify the contexts that test inputs must satisfy. Based on such observation, we introduce the \underline{C}ontext \underline{C}onsistency \underline{C}riterion (a.k.a, C3), which is a readability measurement tool that leverages Large Language Models to extract primitive-type (including string-type) parameters' readability contexts from the source codes and checks whether test inputs are consistent with those contexts. We have also proposed EvoSuiteC3. It leverages C3's extracted contexts to help EvoSuite generate readable test inputs. We have evaluated C3's performance on $409$ \java{} classes and compared manual and automated tests' readability under C3 measurement. The results are two-fold. First, The Precision, Recall, and F1-Score of C3's mined readability contexts are \precision{}, \recall{}, and \fone{}, respectively. Second, under C3's measurement, the string-type input readability scores of EvoSuiteC3, ChatUniTest (an LLM-based test generation tool), manual tests, and two traditional tools (EvoSuite and Randoop) are $90\%$, $83\%$, $68\%$, $8\%$, and $8\%$, showing the traditional tools' inability in generating readable string-type inputs.
Abstract（参考訳）: 自動テスト技術は通常、手動テストよりも高いコードカバレッジで単体テストを生成する。しかし、自動テストの可読性はコードの理解とメンテナンスに不可欠である。単体テストの可読性は多くの側面を含む。本稿では,テストインプットに焦点をあてる。入力可読性に関する既存の研究の中心的な制限は、テスト済みのソースコードを考慮に入れずに、テストコードのみに焦点を当てることであり、異なるソースコードの異なる可読性要件を無視したり、読みやすい入力を書くために手作業を必要とする。しかし、ソースコードは、テスト入力が満たさなければならないコンテキストを指定する。このような観察に基づいて、大言語モデルを利用した可読性測定ツールである \underline{C}ontext \underline{C}onsistency \underline{C}onsistency \underline{C}riterion (a.a.a.C3) を導入し、ソースコードからプリミティブ型(文字列型を含む)パラメータの可読性コンテキストを抽出し、テスト入力がそれらのコンテキストと整合であるかどうかを確認する。 EvoSuiteC3も提案しました。これはC3の抽出したコンテキストを活用して、EvoSuiteが読みやすいテストインプットを生成するのに役立つ。我々は C3 のパフォーマンスを 409$ \java{} クラスで評価し,手動および自動テストの可読性を比較した。結果は2倍になる。まず、C3のマイニングされた可読性コンテキストの精度、リコール、F1スコアはそれぞれ \precision{} と \recall{} と \fone{} である。第二に、C3の測定では、EvoSuiteC3、ChatUniTest(LLMベースのテスト生成ツール)、手動テスト、および2つの従来のツール(EvoSuiteとRandoop)の文字列型の入力可読性スコアは、90 %$、83\%$、68 %$、8 %$、そして8 %$である。

関連論文リスト

Studying the Impact of Early Test Termination Due to Assertion Failure on Code Coverage and Spectrum-based Fault Localization [48.22524837906857]
本研究は,アサーション障害による早期検査終了に関する最初の実証的研究である。 6つのオープンソースプロジェクトの207バージョンを調査した。以上の結果から,早期検査終了は,コードカバレッジとスペクトルに基づく障害局所化の有効性の両方を損なうことが示唆された。
論文参考訳（メタデータ） (2025-04-06T17:14:09Z)
Learning to Generate Unit Tests for Automated Debugging [52.63217175637201]
ユニットテスト(UT)は、コードの正確性を評価するだけでなく、大きな言語モデル(LLM)にフィードバックを提供する上でも重要な役割を果たします。提案するUTGenは,LLMに対して,予測出力とともにエラーを示す単体テスト入力を生成することを教える。 UTGen は他の LLM ベースラインを7.59% 上回っていることを示す。
論文参考訳（メタデータ） (2025-02-03T18:51:43Z)
TESTEVAL: Benchmarking Large Language Models for Test Case Generation [15.343859279282848]
大規模言語モデル(LLM)を用いたテストケース生成のための新しいベンチマークであるTESTEVALを提案する。オンラインプログラミングプラットフォームLeetCodeから210のPythonプログラムを収集し、全体的なカバレッジ、ターゲットライン/ブランチカバレッジ、ターゲットパスカバレッジという3つの異なるタスクを設計します。特定のプログラム行/ブランチ/パスをカバーするテストケースを生成することは、現在のLLMでは依然として困難である。
論文参考訳（メタデータ） (2024-06-06T22:07:50Z)
Protecting Copyrighted Material with Unique Identifiers in Large Language Model Training [55.321010757641524]
大きな言語モデル(LLM)のトレーニングに関する主要な公的な懸念は、著作権のあるオンラインテキストを悪用するかどうかである。事前の会員推定法は、大量のトレーニングデータに類似した例によって誤解されることがある。本稿では,Webユーザとコンテンツプラットフォームがtextbftextitunique 識別子を使用することを推奨する代替のtextitinsert-and-detection 手法を提案する。
論文参考訳（メタデータ） (2024-03-23T06:36:32Z)
TestSpark: IntelliJ IDEA's Ultimate Test Generation Companion [15.13443954421825]
本稿では,IntelliJ IDEA用のプラグインであるTestSparkを紹介する。 TestSparkは、生成された各テストを容易に修正して実行し、それらをプロジェクトワークフローに統合することを可能にする。
論文参考訳（メタデータ） (2024-01-12T13:53:57Z)
CAT-LM: Training Language Models on Aligned Code And Tests [19.526181671936243]
テストはソフトウェア開発プロセスにおいて不可欠な部分だ。しかし、テストを書くのに時間がかかり、しばしば無視される。我々は270億のパラメータを持つGPTスタイルの言語モデルであるAligned Code And Tests Language Model (CAT-LM)を提案する。
論文参考訳（メタデータ） (2023-10-02T19:52:22Z)
Prompting Code Interpreter to Write Better Unit Tests on Quixbugs Functions [0.05657375260432172]
単体テストは、ソフトウェア工学において、記述されたコードの正確性と堅牢性をテストするために一般的に使用されるアプローチである。本研究では,コードインタプリタが生成する単体テストの品質に及ぼす異なるプロンプトの影響について検討する。生成した単体テストの品質は、提供されたプロンプトのマイナーな詳細の変更に敏感ではないことがわかった。
論文参考訳（メタデータ） (2023-09-30T20:36:23Z)
Using Large Language Models to Generate JUnit Tests: An Empirical Study [0.4788487793976782]
コード生成モデルは、コードコメント、既存のコード、または両方の組み合わせからプロンプトを受け取り、コードを生成する。我々は,3つのモデル (Codex, GPT-3.5-Turbo, StarCoder) がどの程度単体テストを生成するかを検討した。 CodexモデルはHumanEvalデータセットの80%以上のカバレッジを達成したが、EvoSuite SF110ベンチマークの2%以上のカバレッジを持つモデルはない。
論文参考訳（メタデータ） (2023-04-30T07:28:06Z)
Learning Deep Semantics for Test Completion [46.842174440120196]
テスト完了の新たなタスクを形式化し、テスト対象の文のコンテキストとコードに基づいて、テストメソッドで次のステートメントを自動的に完了する。テスト補完にコードセマンティクスを用いたディープラーニングモデルであるTeCoを開発した。
論文参考訳（メタデータ） (2023-02-20T18:53:56Z)
CLAWSAT: Towards Both Robust and Accurate Code Models [74.57590254102311]
比較学習(CL)と逆学習を統合して、コードモデルの堅牢性と精度を協調的に最適化する。私たちの知る限りでは、これはコードモデルにおける(マルチビュー)コードの難読化の堅牢性と正確性について調査し、活用する最初の体系的な研究です。
論文参考訳（メタデータ） (2022-11-21T18:32:50Z)
Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文参考訳（メタデータ） (2022-08-11T17:41:08Z)
UniTE: Unified Translation Evaluation [63.58868113074476]
UniTEは3つの評価タスクをすべて処理する能力に携わる最初の統合フレームワークである。 We testify our framework on WMT 2019 Metrics and WMT 2020 Quality Estimation benchmarks。
論文参考訳（メタデータ） (2022-04-28T08:35:26Z)
textless-lib: a Library for Textless Spoken Language Processing [50.070693765984075]
我々はPyTorchベースのライブラリであるtextless-libを紹介した。ライブラリが提供するビルディングブロックを説明し、そのユーザビリティを実証する。
論文参考訳（メタデータ） (2022-02-15T12:39:42Z)
Automated Support for Unit Test Generation: A Tutorial Book Chapter [21.716667622896193]
単体テストは、システムの他の部分と独立してテストできる最小のコードセグメントをテストする段階である。単体テストは通常実行可能なコードとして書かれ、Pythonのpytestのような単体テストフレームワークが提供する形式で書かれる。本章では,検索に基づく単体テスト生成の概念を紹介する。
論文参考訳（メタデータ） (2021-10-26T11:13:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。