論文の概要: How Effective are Large Language Models in Generating Software Specifications?
- arxiv url: http://arxiv.org/abs/2306.03324v3
- Date: Sun, 09 Feb 2025 21:28:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 18:57:48.294365
- Title: How Effective are Large Language Models in Generating Software Specifications?
- Title(参考訳): ソフトウェア仕様の生成において,大規模言語モデルはどの程度有効か?
- Authors: Danning Xie, Byungwoo Yoo, Nan Jiang, Mijung Kim, Lin Tan, Xiangyu Zhang, Judy S. Lee,
- Abstract要約: 大規模言語モデル(LLM)は多くのソフトウェア工学(SE)タスクにうまく適用されている。
ソフトウェアコメントやドキュメンテーションからソフトウェア仕様を生成するためのLCMの能力を評価するための、最初の実証的研究を行う。
- 参考スコア(独自算出の注目度): 14.170320751508502
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Software specifications are essential for many Software Engineering (SE) tasks such as bug detection and test generation. Many existing approaches are proposed to extract the specifications defined in natural language form (e.g., comments) into formal machine readable form (e.g., first order logic). However, existing approaches suffer from limited generalizability and require manual efforts. The recent emergence of Large Language Models (LLMs), which have been successfully applied to numerous SE tasks, offers a promising avenue for automating this process. In this paper, we conduct the first empirical study to evaluate the capabilities of LLMs for generating software specifications from software comments or documentation. We evaluate LLMs performance with Few Shot Learning (FSL) and compare the performance of 13 state of the art LLMs with traditional approaches on three public datasets. In addition, we conduct a comparative diagnosis of the failure cases from both LLMs and traditional methods, identifying their unique strengths and weaknesses. Our study offers valuable insights for future research to improve specification generation.
- Abstract(参考訳): ソフトウェア仕様は、バグ検出やテスト生成といった多くのソフトウェア工学(SE)タスクに必須である。
自然言語形式(例えばコメント)で定義された仕様を形式機械可読形式(例えば、一階述語論理)に抽出するために、多くの既存手法が提案されている。
しかし、既存のアプローチは限定的な一般化性に悩まされており、手作業が必要である。
最近のLarge Language Models (LLM)の出現は、多くのSEタスクにうまく適用され、このプロセスを自動化するための有望な道を提供する。
本稿では,ソフトウェアコメントやドキュメンテーションからソフトウェア仕様を生成するLCMの能力を評価するための,最初の実証的研究を行う。
我々は、Few Shot Learning (FSL) を用いてLLMの性能を評価し、13の最先端のLLMの性能と3つの公開データセットに対する従来のアプローチを比較した。
さらに, LLMと従来の手法の双方から, 障害事例の比較診断を行い, その特異な強度と弱点を同定した。
我々の研究は、仕様生成を改善するための将来の研究に貴重な洞察を提供する。
関連論文リスト
- Extracting Formal Specifications from Documents Using LLMs for Automated Testing [11.129512305353055]
正式な仕様を定義する主なアプローチは、ソフトウェア文書のマニュアル分析である。
システム更新は、対応する正式な仕様を維持するための人件費をさらに高める。
大規模言語モデルの最近の進歩は、自然言語理解において有望な能力を示している。
論文 参考訳(メタデータ) (2025-04-02T01:58:11Z) - Benchmarking Large Language Models for Multi-Language Software Vulnerability Detection [15.026084450436976]
本稿では,ソフトウェア脆弱性検出タスクにおいて,大規模言語モデル(LLM)の性能を評価する。
Pythonで8,260の脆弱な関数、Javaで7,505、JavaScriptで28,983のデータセットをコンパイルしました。
これらのLSMは、5つの微調整された小さな言語モデルと2つのオープンソースの静的アプリケーションセキュリティテストツールに対してベンチマークされる。
論文 参考訳(メタデータ) (2025-03-03T11:56:00Z) - zsLLMCode: An Effective Approach for Functional Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
大型言語モデル(LLM)はゼロショット学習の能力を持ち、訓練や微調整を必要としない。
LLMを用いた関数型コード埋め込みを生成する新しいアプローチであるzsLLMCodeを提案する。
論文 参考訳(メタデータ) (2024-09-23T01:03:15Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Evaluating Language Models for Generating and Judging Programming Feedback [4.743413681603463]
大規模言語モデル(LLM)は、幅広い領域で研究と実践を変革してきた。
我々は,オープンソースのLCMのプログラミング課題に対する高品質なフィードバック生成における効率性を評価する。
論文 参考訳(メタデータ) (2024-07-05T21:44:11Z) - On the Evaluation of Large Language Models in Unit Test Generation [16.447000441006814]
単体テストは、ソフトウェアコンポーネントの正しさを検証するために、ソフトウェア開発において不可欠な活動である。
LLM(Large Language Models)の出現は、ユニットテスト生成を自動化するための新しい方向性を提供する。
論文 参考訳(メタデータ) (2024-06-26T08:57:03Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - Multitask-based Evaluation of Open-Source LLM on Software Vulnerability [2.7692028382314815]
本稿では,公開データセットを用いて対話型大規模言語モデル(LLM)を定量的に評価するためのパイプラインを提案する。
我々は,4つの共通ソフトウェア脆弱性タスクをカバーするBig-Vulを用いて,LLMの広範な技術的評価を行う。
既存の最先端のアプローチと事前訓練された言語モデル(LM)は、ソフトウェア脆弱性検出において、LLMよりも一般的に優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-02T15:52:05Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - The potential of LLMs for coding with low-resource and domain-specific
programming languages [0.0]
本研究は,オープンソースソフトウェアGreetlのハンスル(Hansl)という,econometricスクリプティング言語に焦点を当てたものである。
この結果から, LLMはグレタブルコードの記述, 理解, 改善, 文書化に有用なツールであることが示唆された。
論文 参考訳(メタデータ) (2023-07-24T17:17:13Z) - Software Testing with Large Language Models: Survey, Landscape, and
Vision [32.34617250991638]
事前訓練された大規模言語モデル(LLM)は、自然言語処理と人工知能におけるブレークスルー技術として登場した。
本稿では,ソフトウェアテストにおけるLCMの利用状況について概説する。
論文 参考訳(メタデータ) (2023-07-14T08:26:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。