Fugu-MT 論文翻訳(概要): Tasks People Prompt: A Taxonomy of LLM Downstream Tasks in Software Verification and Falsification Approaches

論文の概要: Tasks People Prompt: A Taxonomy of LLM Downstream Tasks in Software Verification and Falsification Approaches

arxiv url: http://arxiv.org/abs/2404.09384v1
Date: Sun, 14 Apr 2024 23:45:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 14:18:53.636387
Title: Tasks People Prompt: A Taxonomy of LLM Downstream Tasks in Software Verification and Falsification Approaches
Title（参考訳）: Tasks People Prompt: ソフトウェア検証とFalsificationアプローチにおけるLLM下流タスクの分類
Authors: Víctor A. Braberman, Flavia Bonomo-Braberman, Yiannis Charalambous, Juan G. Colonna, Lucas C. Cordeiro, Rosiane de Freitas,
Abstract要約: 研究者や実践者は、大規模言語モデルをどのように活用するかを知るためのプロンプトで遊んでいる。 80の論文を均質に解剖することにより、ソフトウェアテストと検証研究コミュニティがどのようにしてLLM対応ソリューションを抽象的に設計しているかを深く調査する。我々は、ソフトウェア工学の問題のかなり多様な範囲で、いくつかのエンジニアリングパターンを特定できる新しい下流タスク分類法を開発した。
参考スコア（独自算出の注目度）: 2.687757575672707
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prompting has become one of the main approaches to leverage emergent capabilities of Large Language Models [Brown et al. NeurIPS 2020, Wei et al. TMLR 2022, Wei et al. NeurIPS 2022]. During the last year, researchers and practitioners have been playing with prompts to see how to make the most of LLMs. By homogeneously dissecting 80 papers, we investigate in deep how software testing and verification research communities have been abstractly architecting their LLM-enabled solutions. More precisely, first, we want to validate whether downstream tasks are an adequate concept to convey the blueprint of prompt-based solutions. We also aim at identifying number and nature of such tasks in solutions. For such goal, we develop a novel downstream task taxonomy that enables pinpointing some engineering patterns in a rather varied spectrum of Software Engineering problems that encompasses testing, fuzzing, debugging, vulnerability detection, static analysis and program verification approaches.
Abstract（参考訳）: Promptingは、大規模言語モデル(Brown et al NeurIPS 2020、Wei et al TMLR 2022、Wei et al NeurIPS 2022)の創発的能力を活用する主要なアプローチの1つになっています。昨年、研究者や実践者たちは、LLMを最大限に活用する方法を探るため、プロンプトで遊んできた。 80の論文を均質に解剖することにより、ソフトウェアテストと検証研究コミュニティがどのようにしてLLM対応ソリューションを抽象的に設計しているかを深く調査する。より正確には、まず下流タスクがプロンプトベースのソリューションの青写真を伝えるのに適切な概念であるかどうかを検証する。また、そのようなタスクの数と性質を解法で特定することを目的とする。このような目的のために、我々は、テスト、ファジィング、デバッグ、脆弱性検出、静的解析、プログラム検証アプローチを含むソフトウェア工学の問題の、かなり多様な範囲で、いくつかのエンジニアリングパターンを特定できる新しいダウンストリームタスク分類を開発する。

関連論文リスト

A Systematic Literature Review on Detecting Software Vulnerabilities with Large Language Models [2.518519330408713]
ソフトウェア工学における大規模言語モデル(LLM)は、ソフトウェア脆弱性検出への関心を喚起している。この分野の急速な発展は、断片化された研究の風景を生み出した。この断片化は、最先端技術の明確な概要を得るのを困難にし、研究を有意義に比較し分類する。
論文参考訳（メタデータ） (2025-07-30T13:17:16Z)
A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文参考訳（メタデータ） (2025-04-12T01:27:49Z)
Aligning Multimodal LLM with Human Preference: A Survey [62.89722942008262]
大規模言語モデル(LLM)は、タスク固有のトレーニングを必要とせずに、単純なプロンプトで幅広い汎用タスクを処理できる。 MLLM(Multimodal Large Language Models)は、視覚的、聴覚的、テキスト的データを含む複雑なタスクに対処する大きな可能性を実証している。しかし、真理性、安全性、o1のような推論、および人間の嗜好との整合性に関する重要な問題は未解決のままである。
論文参考訳（メタデータ） (2025-03-18T17:59:56Z)
Challenges in Testing Large Language Model Based Software: A Faceted Taxonomy [14.041979999979166]
LLM(Large Language Models)とMulti-Agent LLM(MALLMs)は、従来の機械学習ソフトウェアとは異なり、非決定性を導入している。本稿では, LLMテストケース設計の分類について, 研究文献, 経験, 実践状況を表すオープンソースツールの両面から報告する。
論文参考訳（メタデータ） (2025-03-01T13:15:56Z)
LLMs in Software Security: A Survey of Vulnerability Detection Techniques and Insights [12.424610893030353]
大規模言語モデル(LLM)は、ソフトウェア脆弱性検出のためのトランスフォーメーションツールとして登場している。本稿では,脆弱性検出におけるLSMの詳細な調査を行う。言語間の脆弱性検出、マルチモーダルデータ統合、リポジトリレベルの分析といった課題に対処する。
論文参考訳（メタデータ） (2025-02-10T21:33:38Z)
Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文参考訳（メタデータ） (2024-10-02T20:48:28Z)
Large Language Models for Anomaly and Out-of-Distribution Detection: A Survey [18.570066068280212]
大規模言語モデル(LLM)は、自然言語処理だけでなく、より広範なアプリケーションでもその効果を実証している。本調査は,LSMの文脈下での異常検出とOOD検出の問題点に焦点を当てた。 LLMが果たす役割に基づいて,既存のアプローチを2つのクラスに分類する新たな分類法を提案する。
論文参考訳（メタデータ） (2024-09-03T15:22:41Z)
A Software Engineering Perspective on Testing Large Language Models: Research, Practice, Tools and Benchmarks [2.8061460833143346]
大規模言語モデル(LLM)は、スタンドアロンツールとしても、現在および将来のソフトウェアシステムのコンポーネントとしても、急速に普及しています。 LLMを2030年のハイテイクシステムや安全クリティカルシステムで使用するためには、厳格なテストを実施する必要がある。
論文参考訳（メタデータ） (2024-06-12T13:45:45Z)
Large Language Models Offer an Alternative to the Traditional Approach of Topic Modelling [0.9095496510579351]
広範テキストコーパス内の話題を明らかにする代替手段として,大規模言語モデル (LLM) の未解決の可能性について検討する。本研究は, 適切なプロンプトを持つLCMが, トピックのタイトルを生成でき, トピックを洗練, マージするためのガイドラインに固執する上で, 有効な代替手段として目立たせることを示唆している。
論文参考訳（メタデータ） (2024-03-24T17:39:51Z)
A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications [11.568575664316143]
本稿では,応用分野別に分類した,最近のプロンプト工学の進歩について概説する。本稿では、プロンプト手法、その応用、関連するモデル、利用したデータセットについて詳述する。この体系的な分析は、この急速に発展している分野をよりよく理解し、オープンな課題と迅速なエンジニアリングの機会を照明することによって将来の研究を促進する。
論文参考訳（メタデータ） (2024-02-05T19:49:13Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文参考訳（メタデータ） (2023-10-05T00:04:12Z)
Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文参考訳（メタデータ） (2023-09-02T00:32:55Z)
Recent Advances in Direct Speech-to-text Translation [58.692782919570845]
我々は、既存の研究成果を、モデリングの負担、データの不足、アプリケーション問題という3つの課題に基づいて分類する。データ不足の課題に対して、最近の研究は、データ強化、事前学習、知識蒸留、多言語モデリングなど、多くの高度な技術を活用している。我々は、リアルタイム、セグメンテーション、名前付きエンティティ、性別バイアス、コードスイッチングなど、アプリケーションの問題を分析して要約する。
論文参考訳（メタデータ） (2023-06-20T16:14:27Z)
LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。 LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。 LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文参考訳（メタデータ） (2022-10-03T17:56:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。