論文の概要: Tasks People Prompt: A Taxonomy of LLM Downstream Tasks in Software Verification and Falsification Approaches
- arxiv url: http://arxiv.org/abs/2404.09384v1
- Date: Sun, 14 Apr 2024 23:45:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 14:18:53.636387
- Title: Tasks People Prompt: A Taxonomy of LLM Downstream Tasks in Software Verification and Falsification Approaches
- Title(参考訳): Tasks People Prompt: ソフトウェア検証とFalsificationアプローチにおけるLLM下流タスクの分類
- Authors: Víctor A. Braberman, Flavia Bonomo-Braberman, Yiannis Charalambous, Juan G. Colonna, Lucas C. Cordeiro, Rosiane de Freitas,
- Abstract要約: 研究者や実践者は、大規模言語モデルをどのように活用するかを知るためのプロンプトで遊んでいる。
80の論文を均質に解剖することにより、ソフトウェアテストと検証研究コミュニティがどのようにしてLLM対応ソリューションを抽象的に設計しているかを深く調査する。
我々は、ソフトウェア工学の問題のかなり多様な範囲で、いくつかのエンジニアリングパターンを特定できる新しい下流タスク分類法を開発した。
- 参考スコア(独自算出の注目度): 2.687757575672707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompting has become one of the main approaches to leverage emergent capabilities of Large Language Models [Brown et al. NeurIPS 2020, Wei et al. TMLR 2022, Wei et al. NeurIPS 2022]. During the last year, researchers and practitioners have been playing with prompts to see how to make the most of LLMs. By homogeneously dissecting 80 papers, we investigate in deep how software testing and verification research communities have been abstractly architecting their LLM-enabled solutions. More precisely, first, we want to validate whether downstream tasks are an adequate concept to convey the blueprint of prompt-based solutions. We also aim at identifying number and nature of such tasks in solutions. For such goal, we develop a novel downstream task taxonomy that enables pinpointing some engineering patterns in a rather varied spectrum of Software Engineering problems that encompasses testing, fuzzing, debugging, vulnerability detection, static analysis and program verification approaches.
- Abstract(参考訳): Promptingは、大規模言語モデル(Brown et al NeurIPS 2020、Wei et al TMLR 2022、Wei et al NeurIPS 2022)の創発的能力を活用する主要なアプローチの1つになっています。
昨年、研究者や実践者たちは、LLMを最大限に活用する方法を探るため、プロンプトで遊んできた。
80の論文を均質に解剖することにより、ソフトウェアテストと検証研究コミュニティがどのようにしてLLM対応ソリューションを抽象的に設計しているかを深く調査する。
より正確には、まず下流タスクがプロンプトベースのソリューションの青写真を伝えるのに適切な概念であるかどうかを検証する。
また、そのようなタスクの数と性質を解法で特定することを目的とする。
このような目的のために、我々は、テスト、ファジィング、デバッグ、脆弱性検出、静的解析、プログラム検証アプローチを含むソフトウェア工学の問題の、かなり多様な範囲で、いくつかのエンジニアリングパターンを特定できる新しいダウンストリームタスク分類を開発する。
関連論文リスト
- A Systematic Literature Review on Large Language Models for Automated Program Repair [10.058053422129893]
研究者が現在の成果、課題、潜在的な機会を理解することは困難である。
この研究は、2020年から2024年までのAPRにおけるLarge Language Modelsの応用を要約する最初の体系的な文献レビューを提供する。
論文 参考訳(メタデータ) (2024-05-02T16:55:03Z) - Large Language Models Based Fuzzing Techniques: A Survey [4.155653485098873]
効率的なソフトウェアテスト手法としてのファジングテストは、様々な領域で広く使われている。
LLM(Large Language Models)の急速な開発により、ソフトウェアテストの分野での応用が促進された。
大きな言語モデルに基づいてファジングテストを採用する傾向が高まっている。
論文 参考訳(メタデータ) (2024-02-01T05:34:03Z) - A Preliminary Study on Using Large Language Models in Software
Pentesting [2.0551676463612636]
大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。
ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
論文 参考訳(メタデータ) (2024-01-30T21:42:59Z) - Caught in the Quicksand of Reasoning, Far from AGI Summit: Evaluating
LLMs' Mathematical and Coding Competency through Ontology-guided
Interventions [50.68293377521595]
大規模言語モデル(LLM)は論理的推論ベンチマークで顕著な結果を示した。
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
質問に対して、すべてのモデルで大幅なパフォーマンス低下を見せています。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Large Language Models for Generative Information Extraction: A Survey [93.28676955662002]
情報抽出は、平易な自然言語テキストから構造的知識を抽出することを目的としている。
生成型大規模言語モデル(LLM)は、テキストの理解と生成において顕著な能力を示した。
LLMは生成パラダイムに基づいたIEタスクに対して実行可能なソリューションを提供する。
論文 参考訳(メタデータ) (2023-12-29T14:25:22Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Thought Propagation: An Analogical Approach to Complex Reasoning with
Large Language Models [70.76692652007469]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。
TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。
TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文 参考訳(メタデータ) (2023-10-06T01:40:09Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Towards an Understanding of Large Language Models in Software
Engineering Tasks [32.09925582943177]
大規模言語モデル(LLM)は、テキスト生成や推論といったタスクにおける驚くべき性能のために、広く注目され、研究されている。
本論文は, LLMとソフトウェア工学を組み合わせた研究・製品について, 総合的に調査し, 検討した最初の論文である。
我々は7つの主流データベースから関連文献を広範囲に収集し、分析のために123の論文を選択した。
論文 参考訳(メタデータ) (2023-08-22T12:37:29Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - Software Testing with Large Language Models: Survey, Landscape, and
Vision [32.34617250991638]
事前訓練された大規模言語モデル(LLM)は、自然言語処理と人工知能におけるブレークスルー技術として登場した。
本稿では,ソフトウェアテストにおけるLCMの利用状況について概説する。
論文 参考訳(メタデータ) (2023-07-14T08:26:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。