論文の概要: Automated Repair of Declarative Software Specifications in the Era of
Large Language Models
- arxiv url: http://arxiv.org/abs/2310.12425v2
- Date: Tue, 7 Nov 2023 17:06:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 18:53:11.568241
- Title: Automated Repair of Declarative Software Specifications in the Era of
Large Language Models
- Title(参考訳): 大規模言語モデルの時代における宣言的ソフトウェア仕様の自動修復
- Authors: Md Rashedul Hasan, Jiawei Li, Iftekhar Ahmed, Hamid Bagheri
- Abstract要約: 我々は,アロイ宣言言語で記述されたソフトウェア仕様の修復にOpenAIのChatGPTを利用することの有効性を評価する。
我々の研究では、ChatGPTは既存の技術と比べて不足しているものの、他の手法では対応できないバグの修正に成功していることがわかった。
- 参考スコア(独自算出の注目度): 12.995301758524935
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The growing adoption of declarative software specification languages, coupled
with their inherent difficulty in debugging, has underscored the need for
effective and automated repair techniques applicable to such languages.
Researchers have recently explored various methods to automatically repair
declarative software specifications, such as template-based repair,
feedback-driven iterative repair, and bounded exhaustive approaches. The latest
developments in large language models provide new opportunities for the
automatic repair of declarative specifications. In this study, we assess the
effectiveness of utilizing OpenAI's ChatGPT to repair software specifications
written in the Alloy declarative language. Unlike imperative languages,
specifications in Alloy are not executed but rather translated into logical
formulas and evaluated using backend constraint solvers to identify
specification instances and counterexamples to assertions. Our evaluation
focuses on ChatGPT's ability to improve the correctness and completeness of
Alloy declarative specifications through automatic repairs. We analyze the
results produced by ChatGPT and compare them with those of leading automatic
Alloy repair methods. Our study revealed that while ChatGPT falls short in
comparison to existing techniques, it was able to successfully repair bugs that
no other technique could address. Our analysis also identified errors in
ChatGPT's generated repairs, including improper operator usage, type errors,
higher-order logic misuse, and relational arity mismatches. Additionally, we
observed instances of hallucinations in ChatGPT-generated repairs and
inconsistency in its results. Our study provides valuable insights for software
practitioners, researchers, and tool builders considering ChatGPT for
declarative specification repairs.
- Abstract(参考訳): 宣言型ソフトウェア仕様言語の採用が増加し、デバッグの難しさと相まって、そのような言語に適用可能な効果的な自動修復技術の必要性が強調されている。
研究者は最近、テンプレートベースの修復、フィードバック駆動の反復的修復、境界付き徹底的なアプローチなど、宣言的ソフトウェア仕様を自動的に修復する様々な方法を模索している。
大規模な言語モデルの最新開発は、宣言的仕様の自動修復の新たな機会を提供する。
本研究では,OpenAI の ChatGPT を利用したアロイ宣言言語によるソフトウェア仕様の修復の有効性を評価する。
命令型言語とは異なり、アロイの仕様は実行されず、論理式に変換され、バックエンド制約ソルバを使用して仕様インスタンスを識別し、アサーションに反例する。
本評価は, 自動修理による合金宣言仕様の正しさと完全性を向上させるChatGPTの能力に焦点をあてる。
chatgptによって得られた結果を分析し、それらを主要な自動合金修復法と比較する。
我々の研究によると、ChatGPTは既存の技術と比べて不足しているものの、他の手法では対応できないバグの修正に成功した。
また,chatgptが生成した修正の誤り,不適切なオペレータ使用,型エラー,高階論理誤用,リレーショナルアーリティミスマッチについても分析を行った。
また,ChatGPTによる補修の幻覚例と,その結果の矛盾も観察した。
我々の研究は、宣言的な仕様修正のためにChatGPTを検討するソフトウェア実践者、研究者、ツールビルダーに貴重な洞察を提供する。
関連論文リスト
- Revisiting Evolutionary Program Repair via Code Language Model [11.711739409758476]
本稿では,多目的進化アルゴリズムをCLMと統合し,Javaプロジェクトのマルチロケーションバグを修正するARJA-CLMを提案する。
また,提案手法は,CLMが候補文を生成するための,アクセス可能なフィールドとメソッドに関する追加情報により,プロンプトを充実させる。
論文 参考訳(メタデータ) (2024-08-20T01:57:45Z) - FactCheck Editor: Multilingual Text Editor with End-to-End fact-checking [1.985242455423935]
「FactCheck Editor」は、事実チェックと正しい事実不正確性を自動化するために設計された高度なテキストエディタである。
90以上の言語をサポートし、トランスフォーマーモデルを使用して、人間の労働集約的な事実検証を支援する。
論文 参考訳(メタデータ) (2024-04-30T11:55:20Z) - A Deep Dive into Large Language Models for Automated Bug Localization and Repair [12.756202755547024]
大規模言語モデル(LLM)は、自動プログラム修復(APR)など、様々なソフトウェアエンジニアリングタスクにおいて顕著な効果を示している。
本研究では,LSMを用いた自動バグ修正について深く検討する。
異なるLLMを用いてバグの局所化と修正を分離することにより、多様なコンテキスト情報の効果的な統合が可能になる。
Toggleは、CodeXGLUEコード改善ベンチマークで、新しい最先端(SOTA)パフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-17T17:48:18Z) - An Empirical Evaluation of Pre-trained Large Language Models for Repairing Declarative Formal Specifications [5.395614997568524]
本稿では,アロイの宣言的仕様を修復するためのLarge Language Models (LLMs) の能力について,体系的に検討する。
本稿では, 補修エージェントとプロンプトエージェントを組み合わせた, 二重エージェントLLMフレームワークを統合した新しい補修パイプラインを提案する。
本研究は, LLM, 特に GPT-4 変種が, 実行時およびトークン使用率の限界が増大しているにもかかわらず, 修復効率において既存の技術よりも優れていたことを明らかにした。
論文 参考訳(メタデータ) (2024-04-17T03:46:38Z) - A Novel Approach for Automatic Program Repair using Round-Trip
Translation with Large Language Models [50.86686630756207]
研究によると、ある文の文法的誤りは、それを他の言語に翻訳し、その語を返せば修正できる。
現在の自動プログラム修復(APR)生成モデルは、ソースコードで事前訓練され、修正のために微調整されている。
本稿では,あるプログラミング言語から別のプログラミング言語,あるいは自然言語へのコード変換,そして,その逆といった,微調整ステップをバイパスし,ラウンド・トリップ変換(RTT)を用いる手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T22:36:31Z) - Exploring ChatGPT's Capabilities on Vulnerability Management [56.4403395100589]
我々は、70,346のサンプルを含む大規模なデータセットを用いて、完全な脆弱性管理プロセスを含む6つのタスクでChatGPTの機能を探求する。
注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。
以上の結果から,ChatGPTが抱える障害が明らかとなり,将来的な方向性に光を当てた。
論文 参考訳(メタデータ) (2023-11-11T11:01:13Z) - ChatGPT for Vulnerability Detection, Classification, and Repair: How Far
Are We? [24.61869093475626]
ChatGPTのような大規模言語モデル(LLM)は、様々なソフトウェアエンジニアリングタスクにおいて顕著な進歩を見せた。
ソフトウェア脆弱性のために設計された最先端言語モデルとChatGPTを比較した。
ChatGPTは限られたパフォーマンスを実現し、脆弱性コンテキストにおける他の言語モデルよりも大幅に遅れていることがわかった。
論文 参考訳(メタデータ) (2023-10-15T12:01:35Z) - RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic
Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。
RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。
RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文 参考訳(メタデータ) (2023-09-12T08:52:56Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。