論文の概要: Automatically Write Code Checker: An LLM-based Approach with Logic-guided API Retrieval and Case by Case Iteration
- arxiv url: http://arxiv.org/abs/2411.06796v1
- Date: Mon, 11 Nov 2024 08:50:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:11:25.195294
- Title: Automatically Write Code Checker: An LLM-based Approach with Logic-guided API Retrieval and Case by Case Iteration
- Title(参考訳): コードチェッカーの自動書き込み:論理誘導型API検索によるLCMベースのアプローチとケースイテレーションによるケーススタディ
- Authors: Yuanyuan Xie, Jun Liu, Jiwei Yan, Jinhao Huang, Jun Yan, Jian Zhang,
- Abstract要約: AutoCheckerは、ルール記述とテストスイートのみに基づいてコードチェッカーを記述する革新的なアプローチである。
毎回、ルールと1つのテストケースでチェッカーをインクリメンタルに更新する。
AutoCheckerによって生成されたチェッカーは、実際のプロジェクトにうまく適用され、公式チェッカーのパフォーマンスにマッチする。
- 参考スコア(独自算出の注目度): 9.551021559603349
- License:
- Abstract: With the rising demand for code quality assurance, developers are not only utilizing existing static code checkers but also seeking custom checkers to satisfy their specific needs. Nowadays, various code-checking frameworks provide extensive checker customization interfaces to meet this need. However, both the abstract checking logic as well as the complex API usage of large-scale frameworks make this task challenging. To this end, automated code checker generation is anticipated to ease the burden of checker development. In this paper, we explore the feasibility of automated checker generation and propose AutoChecker, an innovative LLM-powered approach that can write code checkers automatically based on only a rule description and a test suite. Instead of generating the checker at once, AutoChecker incrementally updates the checker with the rule and one single test case each time, i.e., it iteratively generates the checker case by case. During each iteration, AutoChecker first decomposes the whole logic into a series of sub-operations and then uses the logic-guided API-context retrieval strategy to search related API-contexts from all the framework APIs. To evaluate the effectiveness of AutoChecker, we apply AutoChecker and two LLM-based baseline approaches to automatically generate checkers for 20 built-in PMD rules, including easy rules and hard rules. Experimental results demonstrate that AutoChecker significantly outperforms baseline approaches across all effectiveness metrics, where its average test pass rate improved over 4.2 times. Moreover, the checkers generated by AutoChecker are successfully applied to real-world projects, matching the performance of official checkers.
- Abstract(参考訳): コード品質保証の需要が高まっているため、開発者は既存の静的コードチェッカーを利用するだけでなく、特定のニーズを満たすカスタムチェッカーも求めている。
今日では、様々なコードチェックフレームワークが、このニーズを満たすための広範囲なチェッカーカスタマイズインターフェースを提供している。
しかし、抽象的なチェックロジックと大規模フレームワークの複雑なAPI使用の両方が、このタスクを難しくしている。
この目的のために、自動コードチェッカー生成は、チェッカー開発の負担を軽減するために期待されている。
本稿では、自動チェッカー生成の実現可能性について検討し、ルール記述とテストスイートのみに基づいてコードチェッカーを自動記述できる革新的なLCM方式であるAutoCheckerを提案する。
一度にチェッカーを生成する代わりに、AutoCheckerはルールでチェッカーをインクリメンタルに更新し、毎回1つのテストケース、すなわちケースごとに繰り返しチェッカーケースを生成する。
各イテレーションの間、AutoCheckerはロジック全体を一連のサブオペレーションに分解し、その後、ロジック誘導のAPIコンテキスト検索戦略を使用して、すべてのフレームワークAPIから関連するAPIコンテキストを検索する。
AutoCheckerの有効性を評価するために、AutoCheckerと2つのLCMベースのベースラインアプローチを適用し、簡単なルールやハードルールを含む20の組み込みPMDルールに対するチェッカーを自動的に生成する。
実験の結果、AutoCheckerは、平均テストパス率が4.2倍に向上したすべての評価指標で、ベースラインアプローチを著しく上回っていることが示された。
さらに、AutoCheckerによって生成されたチェッカーは、実際のプロジェクトにうまく適用され、オフィシャルチェッカーのパフォーマンスにマッチする。
関連論文リスト
- Effective Instruction Parsing Plugin for Complex Logical Query Answering on Knowledge Graphs [51.33342412699939]
知識グラフクエリ埋め込み(KGQE)は、不完全なKGに対する複雑な推論のために、低次元KG空間に一階論理(FOL)クエリを埋め込むことを目的としている。
近年の研究では、FOLクエリの論理的セマンティクスをよりよく捉えるために、さまざまな外部情報(エンティティタイプや関係コンテキストなど)を統合している。
コードのようなクエリ命令から遅延クエリパターンをキャプチャする効果的なクエリ命令解析(QIPP)を提案する。
論文 参考訳(メタデータ) (2024-10-27T03:18:52Z) - KAT: Dependency-aware Automated API Testing with Large Language Models [1.7264233311359707]
KAT(Katalon API Testing)は、APIを検証するためのテストケースを自律的に生成する、AI駆動の新たなアプローチである。
実世界の12のサービスを用いたKATの評価は、検証カバレッジを改善し、文書化されていないステータスコードを検出し、これらのサービスの偽陽性を低減できることを示している。
論文 参考訳(メタデータ) (2024-07-14T14:48:18Z) - Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models [54.14602121129874]
トレーニングデータを自動的に生成する最初のスケーラブルで信頼性の高いAutoIFを導入する。
AutoIFは命令追従データ品質の検証をコード検証に変換する。
論文 参考訳(メタデータ) (2024-06-19T13:29:53Z) - Automating REST API Postman Test Cases Using LLM [0.0]
本稿では,大規模言語モデルを用いたテストケースの自動生成手法の探索と実装について述べる。
この方法論は、テストケース生成の効率性と有効性を高めるために、Open AIの使用を統合する。
この研究で開発されたモデルは、手作業で収集したポストマンテストケースやさまざまなRest APIのインスタンスを使ってトレーニングされている。
論文 参考訳(メタデータ) (2024-04-16T15:53:41Z) - From Instructions to Constraints: Language Model Alignment with
Automatic Constraint Verification [70.08146540745877]
NLPタスクの共通制約を調査し、それらの引数の型に基づいて、それらを3つのクラスに分類する。
本稿では,ACT(ConsTraintsのアラインメント)という統合フレームワークを提案し,制約に適応したユーザアライメントのための監視信号を自動的に生成する。
論文 参考訳(メタデータ) (2024-03-10T22:14:54Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - Applying Machine Learning for Duplicate Detection, Throttling and
Prioritization of Equipment Commissioning Audits at Fulfillment Network [1.933681537640272]
VQ(Vendor Qualification)とIOQ(Installation and Operation Qualification)監査は倉庫で実施され、すべての機器が品質基準を満たしている。
この作業では、自然言語処理と機械学習を使用して、倉庫のネットワーク用の大規模なチェックリストデータセットをトリムする。
論文 参考訳(メタデータ) (2022-09-28T20:40:32Z) - Induction and Exploitation of Subgoal Automata for Reinforcement
Learning [75.55324974788475]
本稿では,Regressed Learning (RL)タスクにおけるサブゴールの学習と活用のためのISAを提案する。
ISAは、タスクのサブゴールによってエッジがラベル付けされたオートマトンであるサブゴールオートマトンを誘導することで強化学習をインターリーブする。
サブゴールオートマトンはまた、タスクの完了を示す状態と、タスクが成功せずに完了したことを示す状態の2つの特別な状態で構成されている。
論文 参考訳(メタデータ) (2020-09-08T16:42:55Z) - GAMA: a General Automated Machine learning Assistant [4.035753155957698]
General Automated Machine Learning Assistant(GAMA)は、ユーザーがAutoMLアルゴリズムが最適な機械学習パイプラインを探索する方法を追跡および制御できるようにするモジュール式AutoMLシステムである。
GAMAは、ユーザーが異なるAutoMLおよび後処理テクニックをプラグインでき、検索プロセスのログと視覚化が可能で、簡単にベンチマークできる。
論文 参考訳(メタデータ) (2020-07-09T16:16:25Z) - Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。
CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。
ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文 参考訳(メタデータ) (2020-05-08T15:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。