Fugu-MT 論文翻訳(概要): Identifying Performance-Sensitive Configurations in Software Systems through Code Analysis with LLM Agents

論文の概要: Identifying Performance-Sensitive Configurations in Software Systems through Code Analysis with LLM Agents

arxiv url: http://arxiv.org/abs/2406.12806v1
Date: Tue, 18 Jun 2024 17:22:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 17:49:20.183704
Title: Identifying Performance-Sensitive Configurations in Software Systems through Code Analysis with LLM Agents
Title（参考訳）: LLMエージェントを用いたコード解析によるソフトウェアシステムの性能感度設定の同定
Authors: Zehao Wang, Dong Jae Kim, Tse-Hsun Chen,
Abstract要約: PerfSenseは、最小限のオーバーヘッドでパフォーマンスに敏感な設定を識別するフレームワークである。 PerfSenseは、開発者とパフォーマンスエンジニアをシミュレートするために、LLM(Large Language Models)を使用している。 PerfSenseはパフォーマンスに敏感な構成の分類において平均64.77%の精度を達成する。
参考スコア（独自算出の注目度）: 10.857376198847463
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Configuration settings are essential for tailoring software behavior to meet specific performance requirements. However, incorrect configurations are widespread, and identifying those that impact system performance is challenging due to the vast number and complexity of possible settings. In this work, we present PerfSense, a lightweight framework that leverages Large Language Models (LLMs) to efficiently identify performance-sensitive configurations with minimal overhead. PerfSense employs LLM agents to simulate interactions between developers and performance engineers using advanced prompting techniques such as prompt chaining and retrieval-augmented generation (RAG). Our evaluation of seven open-source Java systems demonstrates that PerfSense achieves an average accuracy of 64.77% in classifying performance-sensitive configurations, outperforming both our LLM baseline (50.36%) and the previous state-of-the-art method (61.75%). Notably, our prompt chaining technique improves recall by 10% to 30% while maintaining similar precision levels. Additionally, a manual analysis of 362 misclassifications reveals common issues, including LLMs' misunderstandings of requirements (26.8%). In summary, PerfSense significantly reduces manual effort in classifying performance-sensitive configurations and offers valuable insights for future LLM-based code analysis research.
Abstract（参考訳）: 特定のパフォーマンス要件を満たすようにソフトウェア動作を調整するためには、構成設定が不可欠です。しかし、誤った設定が広まっており、システムパフォーマンスに影響を与えるものを特定することは、考えられる設定の膨大な数と複雑さのために困難である。本稿では、LLM(Large Language Models)を利用した軽量フレームワークPerfSenseを紹介し、最小限のオーバーヘッドでパフォーマンスに敏感な構成を効率的に識別する。 PerfSenseは、プロンプトチェーンや検索拡張生成(RAG)といった高度なプロンプト技術を使用して、開発者とパフォーマンスエンジニア間のインタラクションをシミュレートするためにLLMエージェントを使用している。 7つのオープンソースJavaシステムについて評価した結果、PerfSenseはパフォーマンスに敏感な構成を64.77%の精度で分類し、LLMベースライン(50.36%)と従来の最先端手法(61.75%)の両方を上回りました。特に,本手法は,類似の精度を維持しつつ,リコール率を10%から30%向上させる。さらに、362の誤分類を手動で分析した結果、LCMの要求誤解(26.8%)など、一般的な問題が明らかになった。まとめると、PerfSenseはパフォーマンスに敏感な構成を分類する作業を大幅に減らし、将来のLCMベースのコード分析研究に貴重な洞察を提供する。

関連論文リスト

LLM-DSE: Searching Accelerator Parameters with LLM Agents [34.75581582648836]
LLM-DSEは、HLSディレクティブの最適化に特化したマルチエージェントフレームワークである。我々の探検家は、ルーター、スペシャリスト、アビテーター、批評家の4人のエージェントを調整します。 LLM-DSEは最先端の手法よりも2.55倍の性能向上を実現している。
論文参考訳（メタデータ） (2025-05-18T01:31:42Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
Inference Scaling vs Reasoning: An Empirical Analysis of Compute-Optimal LLM Problem-Solving [0.0]
大規模言語モデル(LLM)の最近の進歩は、精度と推論能力の最大化に重点を置いている。本稿では,2つの対照的なアプローチの統合を解析することにより,推論の強化と計算効率の相乗効果について検討する。
論文参考訳（メタデータ） (2024-12-20T08:42:45Z)
Dspy-based Neural-Symbolic Pipeline to Enhance Spatial Reasoning in LLMs [29.735465300269993]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示してきたが、しばしば空間的推論に苦しむ。本稿では LLM と Answer Set Programming (ASP) の反復的フィードバックにより LLM の空間推論能力を高める新しいニューラルシンボリックフレームワークを提案する。我々は、StepGameとSparQAという2つのベンチマークデータセットに対するアプローチを評価した。
論文参考訳（メタデータ） (2024-11-27T18:04:05Z)
Software Fault Localization Based on Multi-objective Feature Fusion and Deep Learning [1.6724380665811045]
ソフトウェアのフォールトローカライゼーションは、機能の多様性が制限され、従来の手法の精度が低いため、依然として困難である。本稿では,多目的最適化を深層学習モデルに統合し,フォールトローカライゼーション(FL)の精度と効率を両立させる手法を提案する。
論文参考訳（メタデータ） (2024-11-26T04:37:32Z)
Instruct or Interact? Exploring and Eliciting LLMs' Capability in Code Snippet Adaptation Through Prompt Engineering [19.019004855931676]
大規模言語モデル(LLM)は、コード生成タスクにおいて、有望な結果でその有効性を確認した。再利用指向でコンテキスト依存のコード変更予測タスクであるアダプティブのパフォーマンスはまだ不明だ。 LLMの適応性を引き出すためのインタラクティブなプロンプト手法を提案する。
論文参考訳（メタデータ） (2024-11-23T09:40:36Z)
LLM-Based Misconfiguration Detection for AWS Serverless Computing [13.562834528333294]
サーバレスコンピューティングは、開発者がサーバレスアプリケーションとして知られる関数レベルでアプリケーションを構築することを可能にする、新たなクラウドコンピューティングパラダイムである。本稿では、LLMを利用してサーバーレスアプリケーションの設定ミスを検出する最初のフレームワークであるSlsDetectorを紹介する。
論文参考訳（メタデータ） (2024-11-01T14:59:00Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
Enhancing Fault Localization Through Ordered Code Analysis with LLM Agents and Self-Reflection [8.22737389683156]
大規模言語モデル(LLM)は、コード理解と推論を強化することによって、フォールトローカライゼーションの有望な改善を提供する。 LLM4FL は,SBFL ランキングと配当戦略を統合した新しい LLM4FL の故障局所化手法である。以上の結果から,LLM4FLはTop-1の精度でAutoFLを19.27%上回り,DeepFLやGraceといった最先端の監視技術を上回っていることがわかった。
論文参考訳（メタデータ） (2024-09-20T16:47:34Z)
FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。 FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-15T16:45:16Z)
Bridging LLMs and KGs without Fine-Tuning: Intermediate Probing Meets Subgraph-Aware Entity Descriptions [49.36683223327633]
大規模言語モデル(LLM)は、幅広い世界の知識をカプセル化し、強力なコンテキストモデリング能力を示す。実効的で効率的なKGCを実現するために,LLMの強みを頑健な知識表現と相乗化するための新しいフレームワークを提案する。従来手法に比べて47%の相対的な改善を達成し,我々の知る限り,ファインチューニング LLM に匹敵する分類性能を初めて達成した。
論文参考訳（メタデータ） (2024-08-13T10:15:55Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文参考訳（メタデータ） (2024-06-24T15:16:45Z)
On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。 RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文参考訳（メタデータ） (2024-06-08T13:40:38Z)
Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文参考訳（メタデータ） (2023-02-15T18:59:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。