Fugu-MT 論文翻訳(概要): An Empirical Evaluation of Pre-trained Large Language Models for Repairing Declarative Formal Specifications

論文の概要: An Empirical Evaluation of Pre-trained Large Language Models for Repairing Declarative Formal Specifications

arxiv url: http://arxiv.org/abs/2404.11050v1
Date: Wed, 17 Apr 2024 03:46:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-18 15:14:36.599370
Title: An Empirical Evaluation of Pre-trained Large Language Models for Repairing Declarative Formal Specifications
Title（参考訳）: 宣言形式仕様の修正のための事前学習型大規模言語モデルの実証評価
Authors: Mohannad Alhanahnah, Md Rashedul Hasan, Hamid Bagheri,
Abstract要約: 本稿では,アロイの宣言的仕様を修復するためのLarge Language Models (LLMs) の能力について,体系的に検討する。本稿では, 補修エージェントとプロンプトエージェントを組み合わせた, 二重エージェントLLMフレームワークを統合した新しい補修パイプラインを提案する。本研究は, LLM, 特に GPT-4 変種が, 実行時およびトークン使用率の限界が増大しているにもかかわらず, 修復効率において既存の技術よりも優れていたことを明らかにした。
参考スコア（独自算出の注目度）: 5.395614997568524
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatic Program Repair (APR) has garnered significant attention as a practical research domain focused on automatically fixing bugs in programs. While existing APR techniques primarily target imperative programming languages like C and Java, there is a growing need for effective solutions applicable to declarative software specification languages. This paper presents a systematic investigation into the capacity of Large Language Models (LLMs) for repairing declarative specifications in Alloy, a declarative formal language used for software specification. We propose a novel repair pipeline that integrates a dual-agent LLM framework, comprising a Repair Agent and a Prompt Agent. Through extensive empirical evaluation, we compare the effectiveness of LLM-based repair with state-of-the-art Alloy APR techniques on a comprehensive set of benchmarks. Our study reveals that LLMs, particularly GPT-4 variants, outperform existing techniques in terms of repair efficacy, albeit with a marginal increase in runtime and token usage. This research contributes to advancing the field of automatic repair for declarative specifications and highlights the promising potential of LLMs in this domain.
Abstract（参考訳）: プログラムの自動修正(APR)は、プログラムのバグを自動的に修正することに焦点を当てた実践的な研究領域として注目されている。既存のAPR技術は主にCやJavaのような命令型プログラミング言語をターゲットにしているが、宣言型ソフトウェア仕様言語に適用できる効果的なソリューションの必要性が高まっている。本稿では,ソフトウェア仕様に使用される宣言型形式言語であるアロイの宣言型仕様を修復するためのLarge Language Models (LLM) の能力について,体系的に検討する。本稿では, 補修エージェントとプロンプトエージェントを組み合わせた, 二重エージェントLLMフレームワークを統合した新しい補修パイプラインを提案する。広範囲な実証評価を通じて,LLMベースの修復法と最先端のAPR技術とを総合ベンチマークで比較した。本研究は, LLM, 特に GPT-4 変種が, 実行時およびトークン使用率の限界が増大しているにもかかわらず, 修復効率において既存の技術よりも優れていたことを明らかにした。本研究は、宣言的仕様の自動修復の分野の進展に寄与し、この領域におけるLLMの有望な可能性を強調する。

関連論文リスト

Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文参考訳（メタデータ） (2025-07-21T17:30:16Z)
Evaluating Large Language Models on Non-Code Software Engineering Tasks [4.381476817430934]
大規模言語モデル(LLM)は、コード理解と生成において顕著な能力を示している。ソフトウェア工学言語理解(SELU)と呼ばれる最初の包括的なベンチマークを提示する。 SELUは、分類、回帰、名前付きエンティティ認識(NER)とマスケッド言語モデリング(MLM)のターゲットをカバーし、さまざまなソースからデータを引き出す。
論文参考訳（メタデータ） (2025-06-12T15:52:32Z)
AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。 AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文参考訳（メタデータ） (2025-05-22T17:31:10Z)
JARVIS: A Multi-Agent Code Assistant for High-Quality EDA Script Generation [3.6946337486060776]
JARVISは、LLM(Large Language Models)とドメインの専門知識を活用して、EDAタスクのための高品質なスクリプトを生成する、新しいマルチエージェントフレームワークである。合成データを用いて訓練されたドメイン固有LLM, 構造検証, ルール強制, コード修正機能, 高度な検索機構のカスタムコンパイラを組み合わせることにより, 本手法は最先端のドメイン固有モデルよりも大幅に改善されている。
論文参考訳（メタデータ） (2025-05-20T23:40:57Z)
An agentic system with reinforcement-learned subsystem improvements for parsing form-like documents [0.0]
本稿では,Large Language Model (LLM)エージェントと強化学習ドライバエージェントを利用して,一貫性のある自己改善抽出を自動化するエージェントAIシステムを提案する。我々の研究は、モノリシックなLCMベースの抽出の限界を強調し、タスク固有のプロンプトを備えたモジュール化されたマルチエージェントフレームワークを導入しました。この自己修正適応システムは、人間の介入なしに正確な情報抽出を自動化することを目的として、多様な文書、ファイル形式、レイアウト、LLMを処理する。
論文参考訳（メタデータ） (2025-05-16T09:46:10Z)
Unlocking LLM Repair Capabilities in Low-Resource Programming Languages Through Cross-Language Translation and Multi-Agent Refinement [4.5051492144389504]
本稿では,新しい言語間プログラム修復手法 LANTERN を提案する。提案手法は,LLMが弱い補修能力を示す言語から,より強力な性能を示す言語へ,欠陥コードを戦略的に翻訳する。我々は,11言語にまたがる5,068のバグを含む総合的な多言語ベンチマークであるxCodeEvalについて評価を行った。
論文参考訳（メタデータ） (2025-03-28T15:15:56Z)
Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文参考訳（メタデータ） (2025-01-28T15:41:54Z)
Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention [71.12193680015622]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示している。 LLMは異なる言語間で大きな性能差を示す。 Inference-Time Cross-Lingual Intervention (INCLINE) を提案する。
論文参考訳（メタデータ） (2024-10-16T11:23:03Z)
FastFixer: An Efficient and Effective Approach for Repairing Programming Assignments [21.848112758958543]
本稿では,FastFixerを提案する。まず,必要なパッチと関連するコンテキストを生成する方法を学ぶことへのLLMの関心を高めることを目的とした,修復指向のファインチューニング戦略を提案する。修復効率を考慮すると、FastFixerは自動回帰復号アルゴリズムと比較して16.67倍の高速化を実現している。
論文参考訳（メタデータ） (2024-10-11T10:17:02Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Revisiting Evolutionary Program Repair via Code Language Model [11.711739409758476]
本稿では,多目的進化アルゴリズムをCLMと統合し,Javaプロジェクトのマルチロケーションバグを修正するARJA-CLMを提案する。また,提案手法は,CLMが候補文を生成するための,アクセス可能なフィールドとメソッドに関する追加情報により,プロンプトを充実させる。
論文参考訳（メタデータ） (2024-08-20T01:57:45Z)
Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文参考訳（メタデータ） (2024-07-30T08:50:16Z)
Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。 LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文参考訳（メタデータ） (2024-05-26T11:40:58Z)
Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文参考訳（メタデータ） (2024-04-23T08:24:43Z)
A Deep Dive into Large Language Models for Automated Bug Localization and Repair [12.756202755547024]
大規模言語モデル(LLM)は、自動プログラム修復(APR)など、様々なソフトウェアエンジニアリングタスクにおいて顕著な効果を示している。本研究では,LSMを用いた自動バグ修正について深く検討する。異なるLLMを用いてバグの局所化と修正を分離することにより、多様なコンテキスト情報の効果的な統合が可能になる。 Toggleは、CodeXGLUEコード改善ベンチマークで、新しい最先端(SOTA)パフォーマンスを実現する。
論文参考訳（メタデータ） (2024-04-17T17:48:18Z)
A Novel Approach for Automatic Program Repair using Round-Trip Translation with Large Language Models [50.86686630756207]
研究によると、ある文の文法的誤りは、それを他の言語に翻訳し、その語を返せば修正できる。現在の自動プログラム修復(APR)生成モデルは、ソースコードで事前訓練され、修正のために微調整されている。本稿では,あるプログラミング言語から別のプログラミング言語,あるいは自然言語へのコード変換,そして,その逆といった,微調整ステップをバイパスし,ラウンド・トリップ変換(RTT)を用いる手法を提案する。
論文参考訳（メタデータ） (2024-01-15T22:36:31Z)
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練されるコードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文参考訳（メタデータ） (2024-01-01T16:51:20Z)
The Right Prompts for the Job: Repair Code-Review Defects with Large Language Model [15.885824575879763]
自動プログラム修復(APR)技術は、コードレビュー(CR)プロセス中にプログラム欠陥を発見して修復する手作業を減らす可能性がある。しかし、既存のAPRアプローチにまつわる限られた精度とかなりの時間的コストは、産業的な実践において採用を妨げている。近年のLLM(Large Language Models)の進歩により、自然言語やプログラミング言語を理解する能力が向上し、レビューコメントに基づいたパッチの生成が可能になった。
論文参考訳（メタデータ） (2023-12-29T06:12:15Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Automated Repair of Declarative Software Specifications in the Era of Large Language Models [12.995301758524935]
我々は,アロイ宣言言語で記述されたソフトウェア仕様の修復にOpenAIのChatGPTを利用することの有効性を評価する。我々の研究では、ChatGPTは既存の技術と比べて不足しているものの、他の手法では対応できないバグの修正に成功していることがわかった。
論文参考訳（メタデータ） (2023-10-19T02:30:42Z)
Recommender AI Agent: Integrating Large Language Models for Interactive Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。 InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文参考訳（メタデータ） (2023-08-31T07:36:44Z)
Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。本稿では,この新技術について概観する。
論文参考訳（メタデータ） (2023-08-06T18:38:52Z)
How Effective are Large Language Models in Generating Software Specifications? [14.170320751508502]
大規模言語モデル(LLM)は多くのソフトウェア工学(SE)タスクにうまく適用されている。ソフトウェアコメントやドキュメンテーションからソフトウェア仕様を生成するためのLCMの能力を評価するための、最初の実証的研究を行う。
論文参考訳（メタデータ） (2023-06-06T00:28:39Z)
Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文参考訳（メタデータ） (2023-05-24T01:46:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。