論文の概要: ElecBench: a Power Dispatch Evaluation Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2407.05365v2
- Date: Sun, 11 Aug 2024 11:11:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 20:43:18.581388
- Title: ElecBench: a Power Dispatch Evaluation Benchmark for Large Language Models
- Title(参考訳): ElecBench: 大規模言語モデルの分散評価ベンチマーク
- Authors: Xiyuan Zhou, Huan Zhao, Yuheng Cheng, Yuji Cao, Gaoqi Liang, Guolong Liu, Wenxuan Liu, Yan Xu, Junhua Zhao,
- Abstract要約: 大規模言語モデル(LLM)は、効率を改善し、電力セクターのインテリジェントな進歩を促進するための重要な技術となっている。
これらの可能性にもかかわらず、電力セクターにおけるLCMの性能評価ベンチマークが欠如していることは、これらの技術の有効利用を制限している。
ElecBenchは、セクター固有のシナリオを包括的にカバーすることで、既存の評価ベンチマークの欠点を克服することを目指している。
- 参考スコア(独自算出の注目度): 14.167283924323902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In response to the urgent demand for grid stability and the complex challenges posed by renewable energy integration and electricity market dynamics, the power sector increasingly seeks innovative technological solutions. In this context, large language models (LLMs) have become a key technology to improve efficiency and promote intelligent progress in the power sector with their excellent natural language processing, logical reasoning, and generalization capabilities. Despite their potential, the absence of a performance evaluation benchmark for LLM in the power sector has limited the effective application of these technologies. Addressing this gap, our study introduces "ElecBench", an evaluation benchmark of LLMs within the power sector. ElecBench aims to overcome the shortcomings of existing evaluation benchmarks by providing comprehensive coverage of sector-specific scenarios, deepening the testing of professional knowledge, and enhancing decision-making precision. The framework categorizes scenarios into general knowledge and professional business, further divided into six core performance metrics: factuality, logicality, stability, security, fairness, and expressiveness, and is subdivided into 24 sub-metrics, offering profound insights into the capabilities and limitations of LLM applications in the power sector. To ensure transparency, we have made the complete test set public, evaluating the performance of eight LLMs across various scenarios and metrics. ElecBench aspires to serve as the standard benchmark for LLM applications in the power sector, supporting continuous updates of scenarios, metrics, and models to drive technological progress and application.
- Abstract(参考訳): 電力セクターは、グリッド安定性の急激な需要と再生可能エネルギー統合と電力市場のダイナミクスによって引き起こされる複雑な課題に応えて、革新的な技術的解決策をますます求めている。
この文脈において、大規模言語モデル(LLM)は、その優れた自然言語処理、論理的推論、一般化能力によって、効率を改善し、電力セクターのインテリジェントな進歩を促進する重要な技術となっている。
これらの可能性にもかかわらず、電力セクターにおけるLCMの性能評価ベンチマークが欠如していることは、これらの技術の有効利用を制限している。
このギャップに対処するために、電力セクター内のLLMの評価ベンチマークである"ElecBench"を紹介した。
ElecBenchは、セクター固有のシナリオを包括的にカバーし、専門知識のテストを強化し、意思決定の精度を向上させることで、既存の評価ベンチマークの欠点を克服することを目指している。
このフレームワークは、シナリオを一般的な知識とプロフェッショナルビジネスに分類し、さらに6つのパフォーマンス指標(事実性、論理性、安定性、セキュリティ、公正性、表現性)に分類し、パワーセクターにおけるLLMアプリケーションの能力と限界に関する深い洞察を提供する24のサブメトリックに分割する。
透明性を確保するため、私たちは完全なテストセットを公開し、さまざまなシナリオやメトリクスにわたる8つのLCMのパフォーマンスを評価しました。
ElecBenchは、パワーセクターにおけるLLMアプリケーションの標準ベンチマークとして機能し、シナリオ、メトリクス、モデルの継続的な更新をサポートし、技術的進歩とアプリケーションを促進することを目指している。
関連論文リスト
- AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。
本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - Latent-Predictive Empowerment: Measuring Empowerment without a Simulator [56.53777237504011]
我々は、より実用的な方法でエンパワーメントを計算するアルゴリズムであるLatent-Predictive Empowerment(LPE)を提案する。
LPEは、スキルと国家間の相互情報の原則的な置き換えである目的を最大化することで、大きなスキルセットを学習する。
論文 参考訳(メタデータ) (2024-10-15T00:41:18Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - SECURE: Benchmarking Large Language Models for Cybersecurity [0.6741087029030101]
大規模言語モデル(LLM)はサイバーセキュリティの応用の可能性を示しているが、幻覚や真実性の欠如といった問題により信頼性が低下している。
本研究は、これらのタスクに関する7つの最先端モデルを評価し、サイバーセキュリティの文脈におけるその強みと弱点に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-05-30T19:35:06Z) - A Survey on Large Language Models for Critical Societal Domains: Finance, Healthcare, and Law [65.87885628115946]
大規模言語モデル(LLM)は、金融、医療、法律の展望に革命をもたらしている。
我々は、医療における診断・治療方法論の強化、財務分析の革新、法的解釈・コンプライアンス戦略の精査におけるLCMの役割を強調した。
これらの分野におけるLLMアプリケーションの倫理を批判的に検討し、既存の倫理的懸念と透明で公平で堅牢なAIシステムの必要性を指摘した。
論文 参考訳(メタデータ) (2024-05-02T22:43:02Z) - Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence [5.147767778946168]
我々は、23の最先端のLarge Language Models (LLMs)ベンチマークを批判的に評価する。
私たちの研究は、バイアス、真の推論、適応性、実装の不整合、エンジニアリングの複雑さ、多様性、文化的およびイデオロギー規範の見落としなど、重大な制限を明らかにしました。
論文 参考訳(メタデータ) (2024-02-15T11:08:10Z) - Put Your Money Where Your Mouth Is: Evaluating Strategic Planning and Execution of LLM Agents in an Auction Arena [25.865825113847404]
オークションをシミュレートする新しい評価スイートであるAucArenaを紹介する。
我々は,最先端の大規模言語モデル(LLM)を用いて,入札エージェントによる計画と実行スキルのベンチマークを行う制御実験を行う。
論文 参考訳(メタデータ) (2023-10-09T14:22:09Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - Efficiency Pentathlon: A Standardized Arena for Efficiency Evaluation [82.85015548989223]
Pentathlonは、モデル効率の総合的で現実的な評価のためのベンチマークである。
Pentathlonは、モデルライフサイクルにおける計算の大部分を占める推論に焦点を当てている。
レイテンシ、スループット、メモリオーバーヘッド、エネルギー消費など、さまざまな効率面をターゲットにしたメトリクスが組み込まれている。
論文 参考訳(メタデータ) (2023-07-19T01:05:33Z) - Applications of Reinforcement Learning in Deregulated Power Market: A
Comprehensive Review [7.2090237123481575]
強化学習(Reinforcement Learning)は、従来の最適化ツールと比較して利点のある、新興の機械学習技術である。
本稿では、入札とディスパッチ戦略最適化を含む電力市場の非規制運用におけるRLの適用についてレビューする。
入札やディスパッチ問題に展開する大きな可能性を持つRL手法を推奨し,議論する。
論文 参考訳(メタデータ) (2022-05-07T08:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。