論文の概要: ElectriQ: A Benchmark for Assessing the Response Capability of Large Language Models in Power Marketing
- arxiv url: http://arxiv.org/abs/2507.22911v1
- Date: Sat, 19 Jul 2025 02:28:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-03 20:19:02.929573
- Title: ElectriQ: A Benchmark for Assessing the Response Capability of Large Language Models in Power Marketing
- Title(参考訳): ElectriQ: 電力マーケティングにおける大規模言語モデルの応答能力評価ベンチマーク
- Authors: Jinzhi Wang, Qingke Peng, Haozhou Li, Zeyuan Zeng, Qinfeng Song, Kaixuan Yang, Jiangbo Zhang, Yaoying Wang, Ruimeng Li, Biyi Zhou,
- Abstract要約: 電力マーケティングのカスタマーサービスは、問い合わせ、苦情、サービス要求に対処する上で重要な役割を果たす。
GPT-4oやClaude 3のような大きな言語モデル(LLM)は強力な汎用能力を示しているが、この分野で必要とされる専門知識や共感は欠如している。
電力マーケティングシナリオにおけるLCMの評価と拡張を目的とした最初のベンチマークであるElectriQを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Electric power marketing customer service plays a critical role in addressing inquiries, complaints, and service requests. However, current systems, such as China's 95598 hotline, often struggle with slow response times, inflexible procedures, and limited accuracy in domain-specific tasks. While large language models (LLMs) like GPT-4o and Claude 3 demonstrate strong general capabilities, they lack the domain expertise and empathy required in this field. To bridge this gap, we introduce ElectriQ, the first benchmark designed to evaluate and enhance LLMs in electric power marketing scenarios. ElectriQ consists of a dialogue dataset covering six key service categories and introduces four evaluation metrics: professionalism, popularity, readability, and user-friendliness. We further incorporate a domain-specific knowledge base and propose a knowledge augmentation method to boost model performance. Experiments on 13 LLMs reveal that smaller models such as LLama3-8B, when fine-tuned and augmented, can surpass GPT-4o in terms of professionalism and user-friendliness. ElectriQ establishes a comprehensive foundation for developing LLMs tailored to the needs of power marketing services.
- Abstract(参考訳): 電力マーケティングのカスタマーサービスは、問い合わせ、苦情、サービス要求に対処する上で重要な役割を果たす。
しかし、中国の95598ホットラインのような現在のシステムは、遅い応答時間、柔軟性のない手順、ドメイン固有のタスクの正確さに悩まされることが多い。
GPT-4oやClaude 3のような大きな言語モデル(LLM)は強力な汎用能力を示しているが、この分野で必要とされる専門知識や共感は欠如している。
このギャップを埋めるために、電力マーケティングシナリオにおけるLCMの評価と強化を目的とした最初のベンチマークであるElectriQを紹介する。
ElectriQは6つの主要なサービスカテゴリをカバーする対話データセットで構成され、プロフェッショナル主義、人気度、可読性、ユーザフレンドリ性の4つの評価指標を導入している。
さらに、ドメイン固有の知識ベースを導入し、モデルの性能を高めるための知識増強手法を提案する。
13 LLMの実験では、LLama3-8Bのような小型モデルは、微調整や拡張によって、プロフェッショナリズムやユーザーフレンドリ性の観点から、GPT-4oを超える可能性があることが示されている。
ElectriQは、電力マーケティングサービスのニーズに合わせてLLMを開発するための総合的な基盤を確立している。
関連論文リスト
- General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - ECKGBench: Benchmarking Large Language Models in E-commerce Leveraging Knowledge Graph [31.21413440242778]
大規模言語モデル(LLM)は、様々なNLPタスクでその能力を実証している。
プラットフォーム検索、パーソナライズされたレコメンデーション、カスタマーサービスといった実践的な実装によって証明されている。
LLMの事実性を評価するためのいくつかの手法が提案されているが、信頼性の欠如、高消費、ドメインの専門知識の欠如などの問題は、電子商取引における効果的な評価のギャップを残している。
電子商取引におけるLLMの能力を評価するためのデータセットであるECKGBenchを提案する。
論文 参考訳(メタデータ) (2025-03-20T09:49:15Z) - Large Language Model Interface for Home Energy Management Systems [0.7373617024876725]
家庭用エネルギー管理システム(HMS)は、電力価格などの電力系統信号に基づいて家庭の電力使用量を調整する。
HEMSは、エネルギー資源、住宅、およびユーザニーズの特徴を反映した、よく整形されたパラメータ化を必要とする。
本稿では,ユーザと対話して,不適切な回答の理解とパラメータ化を行うインタフェースを提案し,その上で,HEMSを実装するためのパラメータを適切に出力する。
論文 参考訳(メタデータ) (2025-01-14T08:10:43Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - QMOS: Enhancing LLMs for Telecommunication with Question Masked loss and Option Shuffling [10.42541749928513]
GPT-3.5は、最近の研究で、Retrieval Augmented Generationフレームワークにおいて、通信関連質問に対する注目すべき精度を得るために使われている。
本稿では、QMOSについて述べる。QMOSは、電信分野における複数の質問に答える際のLLMの性能を高めるために、Q-Masked LosとOption Shufflingのトリックを利用する革新的な手法である。
論文 参考訳(メタデータ) (2024-09-21T15:32:10Z) - Can LLMs replace Neil deGrasse Tyson? Evaluating the Reliability of LLMs as Science Communicators [22.567933207841968]
大規模言語モデル(LLM)とAIアシスタントは、専門家とアマチュアユーザーの両方で、指数関数的な利用増加を経験している。
本研究では,現在のLLMの信頼性を科学コミュニケータとして評価することに焦点を当てる。
複雑な科学概念に埋め込まれた742 Yes/No クエリからなる新しいデータセット SCiPS-QA を導入する。
論文 参考訳(メタデータ) (2024-09-21T06:48:32Z) - ElecBench: a Power Dispatch Evaluation Benchmark for Large Language Models [14.167283924323902]
大規模言語モデル(LLM)は、効率を改善し、電力セクターのインテリジェントな進歩を促進するための重要な技術となっている。
これらの可能性にもかかわらず、電力セクターにおけるLCMの性能評価ベンチマークが欠如していることは、これらの技術の有効利用を制限している。
ElecBenchは、セクター固有のシナリオを包括的にカバーすることで、既存の評価ベンチマークの欠点を克服することを目指している。
論文 参考訳(メタデータ) (2024-07-07T13:38:05Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - Large Language Models as Automated Aligners for benchmarking
Vision-Language Models [48.4367174400306]
VLM(Vision-Language Models)は新しいレベルの高度化に達し、複雑な認知と推論タスクの実行において顕著な能力を示している。
既存の評価ベンチマークは、厳密で手作りのデータセットを主に頼りにしており、人為的なモデルと人間の知性との整合性を評価する上で、重大な制限に直面している。
本研究では,LLMを有能なキュレーションとして探求し,自動データキュレーションとアセスメントによってVLMと人間の知性と価値のアライメントを測定するAuto-Benchを用いて,その限界に対処する。
論文 参考訳(メタデータ) (2023-11-24T16:12:05Z) - Self-prompted Chain-of-Thought on Large Language Models for Open-domain
Multi-hop Reasoning [70.74928578278957]
オープンドメイン質問回答(ODQA)では、ほとんどの既存の質問はコモンセンスのシングルホップ推論を必要とする。
大規模言語モデル(LLM)は、外部コーパスなしでODQAを促進するために重要な有用性を見出した。
高品質なCoTを大量生産する自動化フレームワークSP-CoTを提案する。
論文 参考訳(メタデータ) (2023-10-20T14:51:10Z) - ExpertPrompting: Instructing Large Language Models to be Distinguished Experts [97.3059051511732]
本稿では,エキスパートとして回答する大規模言語モデルの可能性を引き出すために,ExpertPromptingを提案する。
我々はGPT-3.5を使って新しい命令追跡データを作成し、ExpertLLaMAと呼ばれる競合するオープンソースのチャットアシスタントを訓練する。
論文 参考訳(メタデータ) (2023-05-24T03:51:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。