Fugu-MT 論文翻訳(概要): Formalizing Natural Language Intent into Program Specifications via Large Language Models

論文の概要: Formalizing Natural Language Intent into Program Specifications via Large Language Models

arxiv url: http://arxiv.org/abs/2310.01831v1
Date: Tue, 3 Oct 2023 06:55:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-04 17:13:29.599329
Title: Formalizing Natural Language Intent into Program Specifications via Large Language Models
Title（参考訳）: 大規模言語モデルによるプログラム仕様への自然言語インテントの形式化
Authors: Madeline Endres, Sarah Fakhoury, Saikat Chakraborty, Shuvendu K. Lahiri
Abstract要約: 本稿では、非公式な自然言語形式的メソッドのポストコンディションを形式仕様に変換するために、インフォーマルな大規模言語モデルを活用する問題について述べる。 LLM4nl2postは実際に有用である可能性が示唆された。
参考スコア（独自算出の注目度）: 18.61324616466589
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Informal natural language that describes code functionality, such as code comments or function documentation, may contain substantial information about a programs intent. However, there is typically no guarantee that a programs implementation and natural language documentation are aligned. In the case of a conflict, leveraging information in code-adjacent natural language has the potential to enhance fault localization, debugging, and code trustworthiness. In practice, however, this information is often underutilized due to the inherent ambiguity of natural language which makes natural language intent challenging to check programmatically. The "emergent abilities" of Large Language Models (LLMs) have the potential to facilitate the translation of natural language intent to programmatically checkable assertions. However, it is unclear if LLMs can correctly translate informal natural language specifications into formal specifications that match programmer intent. Additionally, it is unclear if such translation could be useful in practice. In this paper, we describe LLM4nl2post, the problem leveraging LLMs for transforming informal natural language to formal method postconditions, expressed as program assertions. We introduce and validate metrics to measure and compare different LLM4nl2post approaches, using the correctness and discriminative power of generated postconditions. We then perform qualitative and quantitative methods to assess the quality of LLM4nl2post postconditions, finding that they are generally correct and able to discriminate incorrect code. Finally, we find that LLM4nl2post via LLMs has the potential to be helpful in practice; specifications generated from natural language were able to catch 70 real-world historical bugs from Defects4J.
Abstract（参考訳）: コードコメントや関数ドキュメントなどのコード機能を記述する非公式な自然言語は、プログラムの意図に関する実質的な情報を含むことがある。しかし、一般的にプログラムの実装と自然言語ドキュメントが一致している保証はない。衝突の場合、コードに隣接した自然言語で情報を活用することは、フォールトローカライゼーション、デバッグ、コードの信頼性を高める可能性がある。しかし、実際には、この情報は、自然言語の固有のあいまいさのため、プログラム的にチェックすることが難しい自然言語の意図のために、あまり使われないことが多い。大規模言語モデル(LLM)の「創発的能力」は、プログラムでチェック可能なアサーションに対する自然言語意図の翻訳を容易にする可能性がある。しかし、LLMが非公式な自然言語仕様をプログラマの意図に合う形式仕様に正しく翻訳できるかどうかは不明である。また、そのような翻訳が実際に有用かは定かではない。本稿では,非公式自然言語をプログラムアサーションとして表現した形式的メソッドポストコンディションに変換するためのllmを活用したllm4nl2postについて述べる。生成した後条件の正しさと識別力を用いて, LLM4nl2post の異なるアプローチを計測・比較するための指標を導入・検証する。次に, llm4nl2ポスト条件の品質評価のための質的, 定量的な手法を行い, 不正確なコードを判別できることを確認した。最後に, LLM4nl2post は, LLMs による LLM4nl2post が実用上有用であることが判明した。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Towards Formal Verification of LLM-Generated Code from Natural Language Prompts [17.130884318613944]
LLM生成したコードに対して、正式な正当性を保証することを目指している。本稿では,ユーザの意図を形式的に定義されているが,自然言語的な方法で表現できる形式的なクエリ言語を提案する。 83%のケースで正しいコードを検証でき、92%で間違ったコードを識別できます。
論文参考訳（メタデータ） (2025-07-17T16:54:42Z)
NL-Debugging: Exploiting Natural Language as an Intermediate Representation for Code Debugging [68.42255321759062]
大規模言語モデル(LLM)の最近の進歩は、コード関連タスクを強化するために自然言語推論を活用することに注意を向けている。本稿では,自然言語を中間表現として用い,コード改善のための新しいフレームワークであるNL-GINGを紹介する。
論文参考訳（メタデータ） (2025-05-21T10:38:50Z)
Type-Constrained Code Generation with Language Models [51.03439021895432]
大規模言語モデル(LLM)はコードの形式的な側面をモデル化しないため、コンパイル不可能な出力を生成する。本稿では,型システムを利用してコード生成を誘導する型制約デコード手法を提案する。提案手法は,コンパイルエラーを半分以上削減し,コード合成,翻訳,修復作業における機能的正しさを向上する。
論文参考訳（メタデータ） (2025-04-12T15:03:00Z)
HoarePrompt: Structural Reasoning About Program Correctness in Natural Language [6.0749049701897295]
HoarePromptは、プログラム分析や検証から自然言語アーティファクトへの基本的な考え方を適応する、新しいアプローチである。ループを管理するために,モデル検査に広く用いられているk-induction法の適応として,数発のk-inductionを提案する。実験の結果,HoarePromptはZero-shot-CoTプロンプトを正当性分類に用いた場合に比べて,MCCを62%改善することがわかった。
論文参考訳（メタデータ） (2025-03-25T12:30:30Z)
Dafny as Verification-Aware Intermediate Language for Code Generation [0.0]
大規模言語モデル(LLM)は、自然言語プロンプトからソースコードを生成する。その制限の1つは、生成したコードが正しいようにユーザに提示されているにもかかわらず、時に故障する可能性があることである。ユーザがLSMをガイドして,まず不透明な中間表現を生成することを,検証対応言語であるDafnyで提案する。正しいDafnyプログラムはターゲット言語にコンパイルされ、ユーザに返される。
論文参考訳（メタデータ） (2025-01-10T17:23:14Z)
Assured Automatic Programming via Large Language Models [8.006578501857447]
我々は,その意図に適合するコードを生成しつつ,プログラマの意図を発見することを目的としている。本研究の目的は,ユーザ意図の理解を深めることによって,プログラム,仕様,テスト間の一貫性を実現することである。提案手法によって発見された曖昧な意図が,検証可能な自動生成プログラムの割合をいかに高めるかを示す。
論文参考訳（メタデータ） (2024-10-24T07:29:15Z)
Towards Large Language Model Aided Program Refinement [10.089955747110444]
プログラムの洗練には、正式なハイレベルな仕様文から実行可能なプログラムへの正当性保存の変換が含まれる。大型言語モデル(LLM)は、非公式な自然言語仕様から自動コード生成を可能にする。 LLM4PRは,形式的プログラム改善手法と非公式なLCMベースの手法を組み合わせたツールである。
論文参考訳（メタデータ） (2024-06-26T04:29:27Z)
Evaluating LLM-driven User-Intent Formalization for Verification-Aware Languages [6.0608817611709735]
本稿では,検証対応言語における仕様の質を評価するための指標を提案する。 MBPPコード生成ベンチマークのDafny仕様の人間ラベル付きデータセットに,我々の測定値が密接に一致することを示す。また、このテクニックをより広く適用するために対処する必要がある正式な検証課題についても概説する。
論文参考訳（メタデータ） (2024-06-14T06:52:08Z)
Synthetic Programming Elicitation for Text-to-Code in Very Low-Resource Programming and Formal Languages [21.18996339478024]
SPEAC(emphsynthetic programming elicitation and compilation)を紹介する。 SPEACは、より頻繁に、意味的正しさを犠牲にすることなく、構文的に正しいプログラムを生成する。 UCLID5形式検証言語のケーススタディにおいて,SPEACの性能を実証的に評価した。
論文参考訳（メタデータ） (2024-06-05T22:16:19Z)
CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。 CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文参考訳（メタデータ） (2024-05-03T02:48:55Z)
How Proficient Are Large Language Models in Formal Languages? An In-Depth Insight for Knowledge Base Question Answering [52.86931192259096]
知識ベース質問回答(KBQA)は,知識ベースにおける事実に基づいた自然言語質問への回答を目的としている。最近の研究は、論理形式生成のための大規模言語モデル(LLM)の機能を活用して性能を向上させる。
論文参考訳（メタデータ） (2024-01-11T09:27:50Z)
Language Models as Inductive Reasoners [125.99461874008703]
本稿では,帰納的推論のための新しいパラダイム(タスク)を提案し,自然言語の事実から自然言語規則を誘導する。タスクのための1.2kルールファクトペアを含むデータセットDEERを作成し,ルールと事実を自然言語で記述する。我々は、事前訓練された言語モデルが自然言語の事実から自然言語規則をいかに誘導できるかを、初めてかつ包括的な分析を行う。
論文参考訳（メタデータ） (2022-12-21T11:12:14Z)
Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文参考訳（メタデータ） (2022-12-19T22:08:36Z)
Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文参考訳（メタデータ） (2022-10-14T02:35:19Z)
Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文参考訳（メタデータ） (2022-08-11T17:41:08Z)
Code Comment Inconsistency Detection with BERT and Longformer [9.378041196272878]
ソースコードの自然言語記述であるコメントは、ソフトウェア開発者の間で標準的なプラクティスである。コメントに付随する修正を加えずにコードを変更すると、コメントとコードの間に矛盾が生じます。本研究では,自然言語推論(NLI)の文脈における不整合を検出するための2つのモデルを提案する。
論文参考訳（メタデータ） (2022-07-29T02:43:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。