論文の概要: TeleCom-Bench: How Far Are Large Language Models from Industrial Telecommunication Applications?
- arxiv url: http://arxiv.org/abs/2605.18025v1
- Date: Mon, 18 May 2026 08:14:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.115426
- Title: TeleCom-Bench: How Far Are Large Language Models from Industrial Telecommunication Applications?
- Title(参考訳): TeleCom-Bench: 産業用通信アプリケーションからの大規模言語モデルはどこまであるか?
- Authors: Jieting Xiao, Yun Lin, Huizhen Qiu, Rui Ma, Chen Zhong, Dongyang Xu, Xiao Long, Chaoyu Zhang, Qiaobo Hao, Ding Zou, Zhiguo Yang, Yanqin Gao, Fang Tan,
- Abstract要約: 提案するTeleCom-Benchは,22,678個のキュレートされたサンプルを用いた12の評価セットからなる総合的なベンチマークであり,大規模言語モデルの評価を行う。
現在のLSMは診断技師として機能するが、現場エンジニアとして機能しないことを示す。
この能力ギャップは、現在のLLMが診断医として機能するが、現場エンジニアとして機能しないことを示す。
- 参考スコア(独自算出の注目度): 12.347241408492279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models have achieved remarkable integration in various vertical scenarios, their deployment in the telecommunications domain remains exploratory due to the lack of a standardized evaluation framework. Current telecom benchmarks primarily focus on static, foundational knowledge and isolated atomic skills, neglecting the equipment-specific documentation and end-to-end industrial workflows essential for real-world production systems. To bridge this gap, we present TeleCom-Bench, a comprehensive benchmark comprising 12 evaluation sets with 22,678 curated samples, which evaluates LLMs across a synergistic hierarchy: (1) Multi-dimensional Knowledge Comprehension, which integrates telecommunication fundamentals, 3GPP protocols, and 5G network architecture with proprietary product knowledge across wired, core, and wireless networks via knowledge graph-driven synthesis; and (2)End-to-End Knowledge Application, which formalizes six core tasks on authentic trajectories from live network agent workflows, including intent recognition, entity extraction, event verification, tool invocation, root cause analysis, and solution generation-across network optimization and fault maintenance scenarios. Evaluations of eight state-of-the-art LLMs reveal a universal Execution Wall: while models achieve 90% accuracy in linguistic interface tasks such as intent recognition and entity extraction, performance collapses to approximately 30% in procedural execution tasks like solution generation. This capability gap demonstrates that current LLMs function competently as diagnosticians but fail as field engineers. TeleCom-Bench provides standardized diagnostics to precisely pinpoint this deficit, offering actionable guidance for domain-specific alignment toward production-ready telecom agents. The dataset and evaluation code have been released at https://github.com/ZTE-AICloud/TeleCom-Bench.
- Abstract(参考訳): 大規模言語モデルは様々な垂直的なシナリオにおいて顕著な統合を実現しているが、標準化された評価フレームワークが欠如しているため、電気通信分野への展開は探索的のままである。
現在のテレコムベンチマークは、主に静的で基礎的な知識と孤立した原子スキルに焦点を当てており、実際の生産システムに不可欠な機器固有のドキュメントとエンドツーエンドの産業ワークフローを無視している。
このギャップを埋めるために、TeleCom-Benchは12個の評価セットと22,678個のキュレートされたサンプルからなる総合的なベンチマークで、シナジスティックな階層でLLMを評価している。(1) 電信基礎、3GPPプロトコル、および5Gネットワークアーキテクチャを、知識グラフ駆動合成を介して有線、コア、無線ネットワークにまたがる独自の製品知識と統合する多次元知識理解、(2) インテント認識、エンティティ抽出、イベント検証、ツール呼び出し、根本原因分析、ソリューション生成と障害管理のシナリオを含む、6つのコアタスクを定式化したEnd-to-End知識アプリケーション。
モデルが意図認識やエンティティ抽出などの言語インタフェースタスクで90%の精度を達成する一方で、性能はソリューション生成のような手続き実行タスクで約30%に低下する。
この能力ギャップは、現在のLLMが診断医として機能するが、現場エンジニアとして機能しないことを示す。
TeleCom-Benchは、この欠陥を正確に特定するための標準化された診断を提供する。
データセットと評価コードはhttps://github.com/ZTE-AICloud/TeleCom-Bench.comでリリースされた。
関連論文リスト
- Towards Agentic Test-Driven Quality Assurance for 6G Networks [0.0]
テスト駆動品質保証パラダイムとインテントコクリエーションを統合したエージェント型、インテント駆動のエンドツーエンド(E2E)オーケストレーションフレームワークを提案する。
このアーキテクチャは、TMフォーラムの情報モデルとカタログを使用して、標準に準拠した知識表現に基づいている。
論文 参考訳(メタデータ) (2026-04-25T12:58:36Z) - TeleEmbedBench: A Multi-Corpus Embedding Benchmark for RAG in Telecommunications [2.2508462342902633]
大規模言語モデル(LLM)は、重要なタスクのために電気通信領域にますます多くデプロイされている。
TeleEmbedBenchは,通信専用に設計された,最初の大規模マルチコーパス埋め込みベンチマークである。
論文 参考訳(メタデータ) (2026-04-20T04:00:13Z) - CrossTraffic: An Open-Source Framework for Reproducible and Executable Transportation Analysis and Knowledge Management [18.821780833520116]
CrossTrafficは、トランスポート方法論と規制知識を継続的にデプロイ可能で検証可能なソフトウェアインフラストラクチャとして扱う、オープンソースのフレームワークである。
CrossTrafficは、標準化されたインターフェースによるクロスプラットフォームアクセスによるトランスポート分析のための実行可能な計算コアを提供する。
論文 参考訳(メタデータ) (2026-02-08T22:30:27Z) - LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - Understanding 6G through Language Models: A Case Study on LLM-aided Structured Entity Extraction in Telecom Domain [55.627646392044824]
本研究では,テレコムの文脈から構造化されたエンティティを抽出することを目的とした,新しい言語モデルに基づく情報抽出手法を提案する。
提案するテレコム構造化エンティティ抽出(TeleSEE)技術は,エンティティタイプと属性キーの予測にトークン効率のよい表現手法を適用し,出力トークンの数を削減し,予測精度を向上させることを目的とする。
論文 参考訳(メタデータ) (2025-05-20T21:00:08Z) - Efficient Telecom Specific LLM: TSLAM-Mini with QLoRA and Digital Twin Data [0.0]
汎用大規模言語モデル (LLM) は、リアルタイム通信アプリケーションにおいて、しばしば準最適性能を示す。
本研究では,ネトカイが開発したTSLAM-Miniの微調整により,この限界に対処する。
論文 参考訳(メタデータ) (2025-05-10T12:28:47Z) - TeleEval-OS: Performance evaluations of large language models for operations scheduling [34.77222716408485]
通信業務スケジューリング評価ベンチマーク(TeleEval-OS)を提案する。
このベンチマークは、13のサブタスクにわたる15のデータセットで構成され、インテリジェントチケット生成、インテリジェントチケットハンドリング、インテリジェントチケット閉鎖、インテリジェント評価の4つの主要な運用ステージを包括的にシミュレートする。
通信のスケジューリングにおけるそれらの能力は,基本的なNLP,知識Q&A,レポート生成,レポート解析の4つの階層レベルに分類される。
論文 参考訳(メタデータ) (2025-05-06T02:44:41Z) - Enhancing Large Language Models (LLMs) for Telecommunications using Knowledge Graphs and Retrieval-Augmented Generation [52.8352968531863]
大規模言語モデル(LLM)は、汎用自然言語処理タスクにおいて大きな進歩を遂げている。
本稿では,知識グラフ(KG)と検索拡張生成(RAG)技術を組み合わせた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-31T15:58:08Z) - Deep Learning for Ultra-Reliable and Low-Latency Communications in 6G
Networks [84.2155885234293]
まず,データ駆動型教師付き深層学習と深部強化学習をURLLCに適用する方法を概説する。
このようなオープンな問題に対処するために、デバイスインテリジェンス、エッジインテリジェンス、およびURLLCのためのクラウドインテリジェンスを可能にするマルチレベルアーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-02-22T14:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。