論文の概要: LLM4Perf: Large Language Models Are Effective Samplers for Multi-Objective Performance Modeling (Copy)
- arxiv url: http://arxiv.org/abs/2512.16070v1
- Date: Thu, 18 Dec 2025 01:35:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.867931
- Title: LLM4Perf: Large Language Models Are Effective Samplers for Multi-Objective Performance Modeling (Copy)
- Title(参考訳): LLM4Perf: 大規模言語モデルは多目的パフォーマンスモデリング(コピー)に有効である
- Authors: Xin Wang, Zhenhao Li, Zishuo Ding,
- Abstract要約: 本稿では,Large Language Models (LLMs) によるサンプリング機能と特徴について検討する。
フィードバックベースのフレームワークであるLLM4Perfを設計,実装し,LLM誘導サンプリングプロセスの体系的評価に利用した。
この有効性は、LLMの2つの機能である、構成空間プルーニングとフィードバック駆動型戦略改善に起因している。
- 参考スコア(独自算出の注目度): 7.432869426466499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of modern software systems is critically dependent on their complex configuration options. Building accurate performance models to navigate this vast space requires effective sampling strategies, yet existing methods often struggle with multi-objective optimization and cannot leverage semantic information from documentation. The recent success of Large Language Models (LLMs) motivates the central question of this work: Can LLMs serve as effective samplers for multi-objective performance modeling? To explore this, we present a comprehensive empirical study investigating the capabilities and characteristics of LLM-driven sampling. We design and implement LLM4Perf, a feedback-based framework, and use it to systematically evaluate the LLM-guided sampling process across four highly configurable, real-world systems. Our study reveals that the LLM-guided approach outperforms traditional baselines in most cases. Quantitatively, LLM4Perf achieves the best performance in nearly 68.8% (77 out of 112) of all evaluation scenarios, demonstrating its superior effectiveness. We find this effectiveness stems from the LLM's dual capabilities of configuration space pruning and feedback-driven strategy refinement. The effectiveness of this pruning is further validated by the fact that it also improves the performance of the baseline methods in nearly 91.5% (410 out of 448) of cases. Furthermore, we show how the LLM choices for each component and hyperparameters within LLM4Perf affect its effectiveness. Overall, this paper provides strong evidence for the effectiveness of LLMs in performance engineering and offers concrete insights into the mechanisms that drive their success.
- Abstract(参考訳): 現代のソフトウェアシステムの性能は、複雑な構成オプションに依存している。
この広大な空間をナビゲートするために正確なパフォーマンスモデルを構築するには効果的なサンプリング戦略が必要だが、既存のメソッドは多目的最適化に苦しむことが多く、ドキュメントからの意味情報を活用できない。
最近のLLM(Large Language Models)の成功は、この研究の中心的な疑問を動機付けている。
そこで本研究では, LLM駆動サンプリングの能力と特性について, 総合的研究を行った。
フィードバックベースのフレームワークであるLLM4Perfを設計・実装し、4つの高度に構成可能な実世界のシステムにまたがるLCM誘導サンプリングプロセスを体系的に評価する。
LLMガイドによるアプローチは,ほとんどの場合,従来のベースラインよりも優れていた。
LLM4Perfは、すべての評価シナリオの68.8%(112のうち77)で最高のパフォーマンスを達成し、その優れた効果を示している。
この有効性は、LLMの2つの機能である、構成空間プルーニングとフィードバック駆動型戦略改善に起因している。
このプルーニングの有効性は、91.5%(448件中410件)のケースでベースライン法の性能も向上するという事実によってさらに検証されている。
さらに、LLM4Perf内の各コンポーネントとハイパーパラメータのLLM選択が、その有効性にどのように影響するかを示す。
本稿では,性能工学におけるLLMの有効性を強く証明し,その成功を駆動するメカニズムについて具体的な知見を提供する。
関連論文リスト
- Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling [66.0871543682453]
我々はOmni-Thinkerについて紹介する。Omni-Thinkerは多種多様なタスクにわたって大きな言語モデルをスケールする統合強化学習フレームワークである。
我々のスケジューラは,BWTに基づいてタスクを順序付けし,マルチタスク性能を向上する。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - Ensemble Bayesian Inference: Leveraging Small Language Models to Achieve LLM-level Accuracy in Profile Matching Tasks [0.0]
本研究では,プロプライエタリな大規模言語モデル (LLM) に匹敵する精度を実現するため,小型言語モデル (SLM) アンサンブルの可能性を検討する。
本稿では,複数のSLMから判断を合成するためにベイズ推定を適用した新しい手法として,EBI(Ensemble Bayesian Inference)を提案する。
論文 参考訳(メタデータ) (2025-04-24T15:55:10Z) - EVOLvE: Evaluating and Optimizing LLMs For In-Context Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Achieving Peak Performance for Large Language Models: A Systematic Review [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な成功を収めた
モデルが1兆のパラメータ範囲に成長するにつれて、計算とメモリのコストは大幅に増加する。
これにより、多くの研究者がこれらのモデルのトレーニングや適用に必要なリソースにアクセスするのが難しくなる。
論文 参考訳(メタデータ) (2024-09-07T13:57:41Z) - ScaleLLM: A Resource-Frugal LLM Serving Framework by Optimizing End-to-End Efficiency [20.33467627548677]
大規模言語モデル(LLM)は人気が高まり、商用アプリケーションで広く使われている。
LLMサービスシステムにおいて、エンドツーエンドのレイテンシに影響を及ぼす大きなボトルネックを特定するために、詳細な分析を行う。
次に,資源効率の高いLLMサービスのための最適化システムであるScaleLLMを提案する。
論文 参考訳(メタデータ) (2024-07-23T23:37:29Z) - LLM In-Context Recall is Prompt Dependent [0.0]
これを行うモデルの能力は、実世界のアプリケーションにおける実用性と信頼性に大きな影響を及ぼす。
本研究は, LLMのリコール能力がプロンプトの内容に影響を及ぼすだけでなく, トレーニングデータのバイアスによって損なわれる可能性があることを示す。
論文 参考訳(メタデータ) (2024-04-13T01:13:59Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Identifying Factual Inconsistencies in Summaries: Grounding LLM Inference via Task Taxonomy [48.29181662640212]
事実的矛盾は、生成モデルによる忠実な要約にとって重要なハードルとなる。
我々は,要約中の不整合事実のキーエラータイプを集約し,ゼロショットと教師付きパラダイムの両方を容易にするためにそれらを組み込んだ。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。