論文の概要: TeleTables: A Benchmark for Large Language Models in Telecom Table Interpretation
- arxiv url: http://arxiv.org/abs/2601.04202v1
- Date: Fri, 05 Dec 2025 15:47:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-11 18:48:17.601334
- Title: TeleTables: A Benchmark for Large Language Models in Telecom Table Interpretation
- Title(参考訳): TeleTables: テレコムテーブル解釈における大規模言語モデルのベンチマーク
- Authors: Anas Ezzakri, Nicola Piovesan, Mohamed Sana, Antonio De Domenico, Fadhel Ayed, Haozhe Zhang,
- Abstract要約: 言語モデル(LLM)は、エンジニアリングタスクをサポートし、トラブルシューティングを加速し、複雑な技術文書の解釈を支援するために、通信業界でますます研究されている。
主要な理由は、これらの標準が、重要な情報を示すための表を密に含んでいることであるが、そのような表の LLM の知識と解釈能力はほとんど検討されていない。
我々は,LLMが技術的仕様の表に持つ暗黙的な知識と,それを解釈する明示的な能力の両方を評価するために設計されたベンチマークTeleTablesを紹介する。
- 参考スコア(独自算出の注目度): 7.051858278257968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language Models (LLMs) are increasingly explored in the telecom industry to support engineering tasks, accelerate troubleshooting, and assist in interpreting complex technical documents. However, recent studies show that LLMs perform poorly on telecom standards, particularly 3GPP specifications. We argue that a key reason is that these standards densely include tables to present essential information, yet the LLM knowledge and interpretation ability of such tables remains largely unexamined. To address this gap, we introduce TeleTables, a benchmark designed to evaluate both the implicit knowledge LLMs have about tables in technical specifications and their explicit ability to interpret them. TeleTables is built through a novel multi-stage data generation pipeline that extracts tables from 3GPP standards and uses multimodal and reasoning-oriented LLMs to generate and validate questions. The resulting dataset, which is publicly available, comprises 500 human-verified question-answer pairs, each associated with the corresponding table in multiple formats. Our evaluation shows that, smaller models (under 10B parameters) struggle both to recall 3GPP knowledge and to interpret tables, indicating the limited exposure to telecom standards in their pretraining and the insufficient inductive biases for navigating complex technical material. Larger models, on the other hand, show stronger reasoning on table interpretation. Overall, TeleTables highlights the need for domain-specialized fine-tuning to reliably interpret and reason over telecom standards.
- Abstract(参考訳): 言語モデル(LLM)は、エンジニアリングタスクをサポートし、トラブルシューティングを加速し、複雑な技術文書の解釈を支援するために、通信業界でますます研究されている。
しかし、近年の研究では、LLMは通信規格、特に3GPP仕様に不適合であることが示されている。
主要な理由は、これらの標準が、重要な情報を示すための表を密に含んでいることであるが、そのような表の LLM の知識と解釈能力はほとんど検討されていない。
このギャップに対処するために、私たちはLLMが技術的仕様の表に持つ暗黙の知識と、それを解釈する明示的な能力の両方を評価するために設計されたベンチマークであるTeleTablesを紹介します。
TeleTablesは、3GPP標準からテーブルを抽出する新しい多段階データ生成パイプラインを通じて構築されており、質問の生成と検証にマルチモーダルおよび推論指向のLLMを使用している。
得られたデータセットは、公開されており、500の人間検証された質問応答ペアで構成され、それぞれが複数のフォーマットで対応するテーブルに関連付けられている。
評価の結果,3GPP知識の再現と表の解釈に苦慮する小モデル(10Bパラメータ以下)は,事前学習における通信基準への露出に制限があり,複雑な技術材料をナビゲートするための誘導バイアスが不十分であることが示唆された。
一方、より大きなモデルは、テーブル解釈においてより強い推論を示す。
全体として、TeleTablesは、テレコム標準を確実に解釈し、推論するために、ドメイン特化された微調整の必要性を強調している。
関連論文リスト
- TART: An Open-Source Tool-Augmented Framework for Explainable Table-based Reasoning [61.14586098005874]
現在のLarge Language Models (LLM) は、テーブル構造を理解し、正確な数値推論を適用する能力に制限がある。
LLMと特殊なツールを統合するTART(Tool-Augmented Reasoning framework for Tables)を紹介した。
TARTには、正確なデータ表現を保証するテーブルフォーマッター、特定の計算ツールを開発するツールメーカー、説明可能性を維持するための説明ジェネレータの3つの重要なコンポーネントが含まれている。
論文 参考訳(メタデータ) (2024-09-18T06:19:59Z) - Uncovering Limitations of Large Language Models in Information Seeking from Tables [28.19697259795014]
本稿では,テーブル情報探索(TabIS)のための信頼性の高いベンチマークを紹介する。
テキスト類似度に基づくメトリクスによる信頼性の低い評価を避けるため、TabISはテキスト生成フォーマットではなく、単一選択の質問フォーマット(質問毎に2つのオプション)を採用する。
論文 参考訳(メタデータ) (2024-06-06T14:30:59Z) - Using Large Language Models to Understand Telecom Standards [35.343893798039765]
大きな言語モデル(LLM)は、関連する情報へのより高速なアクセスを提供する。
質問応答(QA)アシスタントとして使用される最先端のLCMの性能を評価する。
その結果,LLMはテレコム技術文書の信頼できる参照ツールとして利用できることがわかった。
論文 参考訳(メタデータ) (2024-04-02T09:54:51Z) - Large Language Model for Table Processing: A Survey [18.32332372134988]
本調査では,テーブル関連タスクの概要について概観する。
テーブル質問応答やスプレッドシート操作やテーブルデータ分析といった新しいフィールドなど、従来のタスクをカバーしています。
論文 参考訳(メタデータ) (2024-02-04T00:47:53Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。