論文の概要: Identifying Performance-Sensitive Configurations in Software Systems through Code Analysis with LLM Agents
- arxiv url: http://arxiv.org/abs/2406.12806v1
- Date: Tue, 18 Jun 2024 17:22:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 17:49:20.183704
- Title: Identifying Performance-Sensitive Configurations in Software Systems through Code Analysis with LLM Agents
- Title(参考訳): LLMエージェントを用いたコード解析によるソフトウェアシステムの性能感度設定の同定
- Authors: Zehao Wang, Dong Jae Kim, Tse-Hsun Chen,
- Abstract要約: PerfSenseは、最小限のオーバーヘッドでパフォーマンスに敏感な設定を識別するフレームワークである。
PerfSenseは、開発者とパフォーマンスエンジニアをシミュレートするために、LLM(Large Language Models)を使用している。
PerfSenseはパフォーマンスに敏感な構成の分類において平均64.77%の精度を達成する。
- 参考スコア(独自算出の注目度): 10.857376198847463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Configuration settings are essential for tailoring software behavior to meet specific performance requirements. However, incorrect configurations are widespread, and identifying those that impact system performance is challenging due to the vast number and complexity of possible settings. In this work, we present PerfSense, a lightweight framework that leverages Large Language Models (LLMs) to efficiently identify performance-sensitive configurations with minimal overhead. PerfSense employs LLM agents to simulate interactions between developers and performance engineers using advanced prompting techniques such as prompt chaining and retrieval-augmented generation (RAG). Our evaluation of seven open-source Java systems demonstrates that PerfSense achieves an average accuracy of 64.77% in classifying performance-sensitive configurations, outperforming both our LLM baseline (50.36%) and the previous state-of-the-art method (61.75%). Notably, our prompt chaining technique improves recall by 10% to 30% while maintaining similar precision levels. Additionally, a manual analysis of 362 misclassifications reveals common issues, including LLMs' misunderstandings of requirements (26.8%). In summary, PerfSense significantly reduces manual effort in classifying performance-sensitive configurations and offers valuable insights for future LLM-based code analysis research.
- Abstract(参考訳): 特定のパフォーマンス要件を満たすようにソフトウェア動作を調整するためには、構成設定が不可欠です。
しかし、誤った設定が広まっており、システムパフォーマンスに影響を与えるものを特定することは、考えられる設定の膨大な数と複雑さのために困難である。
本稿では、LLM(Large Language Models)を利用した軽量フレームワークPerfSenseを紹介し、最小限のオーバーヘッドでパフォーマンスに敏感な構成を効率的に識別する。
PerfSenseは、プロンプトチェーンや検索拡張生成(RAG)といった高度なプロンプト技術を使用して、開発者とパフォーマンスエンジニア間のインタラクションをシミュレートするためにLLMエージェントを使用している。
7つのオープンソースJavaシステムについて評価した結果、PerfSenseはパフォーマンスに敏感な構成を64.77%の精度で分類し、LLMベースライン(50.36%)と従来の最先端手法(61.75%)の両方を上回りました。
特に,本手法は,類似の精度を維持しつつ,リコール率を10%から30%向上させる。
さらに、362の誤分類を手動で分析した結果、LCMの要求誤解(26.8%)など、一般的な問題が明らかになった。
まとめると、PerfSenseはパフォーマンスに敏感な構成を分類する作業を大幅に減らし、将来のLCMベースのコード分析研究に貴重な洞察を提供する。
関連論文リスト
- Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。
本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文 参考訳(メタデータ) (2024-04-23T08:24:43Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Dissecting the Runtime Performance of the Training, Fine-tuning, and
Inference of Large Language Models [26.2566707495948]
大規模言語モデル(LLM)は、学術と産業の両方で大きく進歩している。
我々は,事前学習,微調整,LLMを異なるサイズで提供する場合のエンドツーエンド性能をベンチマークする。
次に,LLMにおける計算処理や通信演算子など,サブモジュールの詳細なランタイム解析を行う。
論文 参考訳(メタデータ) (2023-11-07T03:25:56Z) - What Makes for Good Visual Instructions? Synthesizing Complex Visual
Reasoning Instructions for Visual Instruction Tuning [115.19451843294154]
マルチモーダル大言語モデル(MLLM)のゼロショット一般化能力向上のためのビジュアルインストラクションチューニング
本稿では,高品質な視覚的推論命令を自動生成するための体系的アプローチを提案する。
我々のデータセットは、MME-CognitionにおけるMiniGPT-4とBLIP-2の性能をそれぞれ32.6%、28.8%向上させるなど、比較したMLLMの性能を一貫して向上させる。
論文 参考訳(メタデータ) (2023-11-02T15:36:12Z) - Impact of Large Language Models on Generating Software Specifications [14.88090169737112]
大規模言語モデル(LLM)は多くのソフトウェア工学のタスクにうまく適用されている。
ソフトウェアコメントやドキュメントからソフトウェア仕様を生成するLLMの機能を評価する。
論文 参考訳(メタデータ) (2023-06-06T00:28:39Z) - Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。
まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。
提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文 参考訳(メタデータ) (2023-02-15T18:59:21Z) - Comparative Code Structure Analysis using Deep Learning for Performance
Prediction [18.226950022938954]
本稿では,アプリケーションの静的情報(抽象構文木やASTなど)を用いてコード構造の変化に基づいて性能変化を予測することの実現可能性を評価することを目的とする。
組込み学習手法の評価により,木系長短メモリ(LSTM)モデルでは,ソースコードの階層構造を利用して遅延表現を発見し,最大84%(個人的問題)と73%(複数の問題を含む組み合わせデータセット)の精度で性能変化を予測できることが示された。
論文 参考訳(メタデータ) (2021-02-12T16:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。