論文の概要: TeleEval-OS: Performance evaluations of large language models for operations scheduling
- arxiv url: http://arxiv.org/abs/2506.11017v1
- Date: Tue, 06 May 2025 02:44:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.240262
- Title: TeleEval-OS: Performance evaluations of large language models for operations scheduling
- Title(参考訳): TeleEval-OS:運用スケジューリングのための大規模言語モデルの性能評価
- Authors: Yanyan Wang, Yingying Wang, Junli Liang, Yin Xu, Yunlong Liu, Yiming Xu, Zhengwang Jiang, Zhehe Li, Fei Li, Long Zhao, Kuang Xu, Qi Song, Xiangyang Li,
- Abstract要約: 通信業務スケジューリング評価ベンチマーク(TeleEval-OS)を提案する。
このベンチマークは、13のサブタスクにわたる15のデータセットで構成され、インテリジェントチケット生成、インテリジェントチケットハンドリング、インテリジェントチケット閉鎖、インテリジェント評価の4つの主要な運用ステージを包括的にシミュレートする。
通信のスケジューリングにおけるそれらの能力は,基本的なNLP,知識Q&A,レポート生成,レポート解析の4つの階層レベルに分類される。
- 参考スコア(独自算出の注目度): 34.77222716408485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of large language models (LLMs) has significantly propelled progress in artificial intelligence, demonstrating substantial application potential across multiple specialized domains. Telecommunications operation scheduling (OS) is a critical aspect of the telecommunications industry, involving the coordinated management of networks, services, risks, and human resources to optimize production scheduling and ensure unified service control. However, the inherent complexity and domain-specific nature of OS tasks, coupled with the absence of comprehensive evaluation benchmarks, have hindered thorough exploration of LLMs' application potential in this critical field. To address this research gap, we propose the first Telecommunications Operation Scheduling Evaluation Benchmark (TeleEval-OS). Specifically, this benchmark comprises 15 datasets across 13 subtasks, comprehensively simulating four key operational stages: intelligent ticket creation, intelligent ticket handling, intelligent ticket closure, and intelligent evaluation. To systematically assess the performance of LLMs on tasks of varying complexity, we categorize their capabilities in telecommunications operation scheduling into four hierarchical levels, arranged in ascending order of difficulty: basic NLP, knowledge Q&A, report generation, and report analysis. On TeleEval-OS, we leverage zero-shot and few-shot evaluation methods to comprehensively assess 10 open-source LLMs (e.g., DeepSeek-V3) and 4 closed-source LLMs (e.g., GPT-4o) across diverse scenarios. Experimental results demonstrate that open-source LLMs can outperform closed-source LLMs in specific scenarios, highlighting their significant potential and value in the field of telecommunications operation scheduling.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、人工知能の進歩を著しく促進し、複数の専門分野にまたがる応用の可能性を示している。
電気通信の運用スケジューリング(OS)は、ネットワーク、サービス、リスク、人的資源を協調的に管理し、生産のスケジューリングを最適化し、統一的なサービス制御を確保することを含む、電気通信業界の重要な側面である。
しかし、OSタスクの本質的な複雑さとドメイン固有の性質は、包括的な評価ベンチマークが欠如していることと相まって、この重要な分野におけるLLMの応用可能性の徹底的な探究を妨げている。
本研究のギャップに対処するため,第1回電気通信運用スケジューリング評価ベンチマーク(TeleEval-OS)を提案する。
具体的には、13のサブタスクにわたる15のデータセットで構成され、インテリジェントチケット生成、インテリジェントチケットハンドリング、インテリジェントチケット閉鎖、インテリジェント評価の4つの主要な運用ステージを包括的にシミュレートする。
複雑度の異なるタスクにおけるLCMの性能を体系的に評価するため,通信業務のスケジューリング能力は,基本的なNLP,知識Q&A,レポート生成,レポート解析の4つの階層レベルに分類した。
TeleEval-OSでは、ゼロショットと少数ショットの評価手法を利用して、さまざまなシナリオで10のオープンソースLLM(例:DeepSeek-V3)と4つのクローズドソースLLM(例:GPT-4o)を総合的に評価する。
実験により,オープンソース LLM は特定のシナリオにおいてクローズドソース LLM よりも優れており,通信業務スケジューリングの分野におけるその大きな可能性と価値を浮き彫りにすることができることが示された。
関連論文リスト
- TelecomGPT: A Framework to Build Telecom-Specfic Large Language Models [7.015008083968722]
大きな言語モデル(LLM)は、第6世代(6G)通信ネットワークに革命をもたらす可能性がある。
本稿では,汎用LLMを通信用LLMに適応させるパイプラインを提案する。
既存の評価ベンチマークを拡張し、Telecom Math Modeling、Telecom Open QnA、Telecom Code Tasksという3つの新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-12T16:51:02Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - Large Language Model (LLM) for Telecommunications: A Comprehensive Survey on Principles, Key Techniques, and Opportunities [36.711166825551715]
大規模言語モデル(LLM)は、その優れた理解力と推論能力により、最近かなりの注目を集めている。
本研究は,LLM対応通信網の概要を概観することを目的としている。
論文 参考訳(メタデータ) (2024-05-17T14:46:13Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。