論文の概要: Test-driven Software Experimentation with LASSO: an LLM Benchmarking Example
- arxiv url: http://arxiv.org/abs/2410.08911v1
- Date: Fri, 11 Oct 2024 15:32:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 21:16:19.396300
- Title: Test-driven Software Experimentation with LASSO: an LLM Benchmarking Example
- Title(参考訳): LASSOによるテスト駆動ソフトウェア実験: LLMベンチマークの例
- Authors: Marcus Kessel,
- Abstract要約: テスト駆動ソフトウェア実験(TDSE、Test-Driven Software Experiments)は、ソフトウェア主題の実行と、その"事実上の"実行時の振る舞いの観察と分析を含む実験である。
本稿では,TDSEを行うための最小限のドメイン固有言語とデータ構造を提供するLASSOという汎用解析プラットフォームを提案する。
- 参考スコア(独自算出の注目度): 1.4685355149711299
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Empirical software engineering faces a critical gap: the lack of standardized tools for rapid development and execution of Test-Driven Software Experiments (TDSEs) - that is, experiments that involve the execution of software subjects and the observation and analysis of their "de facto" run-time behavior. In this paper we present a general-purpose analysis platform called LASSO that provides a minimal set of domain-specific languages and data structures to conduct TDSEs. By empowering users with an executable scripting language to design and execute TDSEs, LASSO enables efficient evaluation of run-time semantics and execution characteristics in addition to statically determined properties. We present an example TDSE that demonstrates the practical benefits of LASSO's scripting capabilities for assessing the reliability of LLMs for code generation by means of a self-contained, reusable and extensible study script. The LASSO platform is freely available at: https://softwareobservatorium.github.io/, and a demo video is available on YouTube: https://youtu.be/tzY9oNTWXzw
- Abstract(参考訳): テスト駆動ソフトウェア実験(TDSE)の迅速な開発と実行のための標準化されたツールの欠如 — すなわち、ソフトウェア主題の実行と“事実上の”実行時の動作の観察と分析を含む実験だ。
本稿では,TDSEを行うための最小限のドメイン固有言語とデータ構造を提供するLASSOという汎用解析プラットフォームを提案する。
TDSEの設計と実行を実行可能なスクリプト言語でユーザに与えることで、LASSOは静的に決定されたプロパティに加えて、実行時のセマンティクスと実行特性の効率的な評価を可能にする。
本稿では、自己完結型、再利用可能な、拡張可能な研究用スクリプトを用いて、コード生成のためのLCMの信頼性を評価するためのLASSOのスクリプト機能の実例を示す。
LASSO プラットフォームは https://softwareobservatorium.github.io/ で無料で利用可能であり、YouTube では https://youtu.be/tzY9oNTWXzw でデモビデオが公開されている。
関連論文リスト
- Test Wars: A Comparative Study of SBST, Symbolic Execution, and LLM-Based Approaches to Unit Test Generation [11.037212298533069]
大規模言語モデル(LLM)は、自動テストを生成する新しい機会を開いた。
本稿では,SBSTのEvoSuite,シンボル実行のKex,LLMベースのテスト生成のTestSparkという3つのツールを用いた自動テスト生成手法について検討する。
以上の結果から,LSMベースのテスト生成は有望であるが,従来の手法には及ばないことがわかった。
論文 参考訳(メタデータ) (2025-01-17T13:48:32Z) - Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。
我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。
Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:06:12Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。
評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。
コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-15T07:43:55Z) - On the Evaluation of Large Language Models in Unit Test Generation [16.447000441006814]
単体テストは、ソフトウェアコンポーネントの正しさを検証するために、ソフトウェア開発において不可欠な活動である。
LLM(Large Language Models)の出現は、ユニットテスト生成を自動化するための新しい方向性を提供する。
論文 参考訳(メタデータ) (2024-06-26T08:57:03Z) - TESTEVAL: Benchmarking Large Language Models for Test Case Generation [15.343859279282848]
大規模言語モデル(LLM)を用いたテストケース生成のための新しいベンチマークであるTESTEVALを提案する。
オンラインプログラミングプラットフォームLeetCodeから210のPythonプログラムを収集し、全体的なカバレッジ、ターゲットライン/ブランチカバレッジ、ターゲットパスカバレッジという3つの異なるタスクを設計します。
特定のプログラム行/ブランチ/パスをカバーするテストケースを生成することは、現在のLLMでは依然として困難である。
論文 参考訳(メタデータ) (2024-06-06T22:07:50Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - User Centric Evaluation of Code Generation Tools [2.8115477071897788]
本稿では,大規模言語モデル(LLM)のユーザビリティを評価するために,ユーザ中心の手法を提案する。
ベンチマークのテストケースにメタデータが含まれており、その使用を記述し、LLMの使用を模倣する多段階的なプロセスでテストを実行し、ユーザビリティを反映した品質属性セットに基づいてLLM生成ソリューションを測定し、ツールとしてLLMを使用する際のユーザエクスペリエンスに基づいたパフォーマンスを評価する。
論文 参考訳(メタデータ) (2024-02-05T15:56:19Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
我々は、教師付き微調整(SFT)の一般的な方法論を含む、文献の体系的なレビューを行う。
また、既存の戦略の欠陥を指摘しながら、SFTの潜在的な落とし穴についても、それに対する批判とともに検討する。
論文 参考訳(メタデータ) (2023-08-21T15:35:16Z) - How Effective are Large Language Models in Generating Software Specifications? [14.170320751508502]
大規模言語モデル(LLM)は多くのソフトウェア工学(SE)タスクにうまく適用されている。
ソフトウェアコメントやドキュメンテーションからソフトウェア仕様を生成するためのLCMの能力を評価するための、最初の実証的研究を行う。
論文 参考訳(メタデータ) (2023-06-06T00:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。