論文の概要: TelcoAgent-Bench: A Multilingual Benchmark for Telecom AI Agents
- arxiv url: http://arxiv.org/abs/2604.06209v1
- Date: Mon, 16 Mar 2026 07:02:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-12 18:41:08.638179
- Title: TelcoAgent-Bench: A Multilingual Benchmark for Telecom AI Agents
- Title(参考訳): TelcoAgent-Bench: テレコムAIエージェントのための多言語ベンチマーク
- Authors: Lina Bariah, Brahim Mefgouda, Farbod Tavakkoli, Enrique Molero, Louis Powell, Merouane Debbah,
- Abstract要約: TelcoAgent-BenchとTelcoAgent-Metricsを紹介する。
私たちのコントリビューションには、意図認識、順序付けられたツールの実行、解像度の正しさ、シナリオ間の安定性を評価するための、構造化されたメトリクスセットが含まれています。
このフレームワークは英語とアラビア語の両方で動作するように設計されており、運用ネットワーク環境における多言語エージェントの配置の必要性に対処する。
- 参考スコア(独自算出の注目度): 1.7172745214009204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of large language model (LLM) agents into telecom networks introduces new challenges, related to intent recognition, tool execution, and resolution generation, while taking into consideration different operational constraints. In this paper, we introduce TelcoAgent-Bench and TelcoAgent-Metrics, a Telecom-specific benchmarking framework for evaluating multilingual telecom LLM agents. The proposed framework assesses the semantic understanding as well as process-level alignment with structured troubleshooting flows and stability across repeated scenario variations. Our contribution includes a structured suite of metrics that assess intent recognition, ordered tool execution, resolution correctness, and stability across scenario variations, with the aim of quantifying the reliability and operational consistency of LLM agents in telecom environments. The framework is designed to operate in both English and Arabic, to address the need for multilingual agent deployment in operational network environments. Our experimental results show that although recent instruct-tuned models can understand telecom problems in a reasonable way, they usually struggle to consistently follow the required troubleshooting steps and to maintain stable behavior when exposed to different variations of the same scenario. This performance gap becomes more pronounced in unconstrained and bilingual settings.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントのテレコムネットワークへの統合は、異なる運用制約を考慮しつつ、意図認識、ツール実行、解像度生成に関する新たな課題をもたらす。
本稿では,TelcoAgent-BenchとTelcoAgent-Metricsを紹介する。
提案フレームワークは, プロセスレベルのアライメントだけでなく, 繰り返し発生するシナリオの変動に対して, 構造化されたトラブルシューティングフローと安定性を考慮したセマンティック理解の評価を行う。
我々の貢献には、テレコム環境におけるLLMエージェントの信頼性と運用上の一貫性の定量化を目的とした、意図認識、順序付きツールの実行、解像度の正しさ、シナリオ間の安定性を評価するための構造化されたメトリクス群が含まれている。
このフレームワークは英語とアラビア語の両方で動作するように設計されており、運用ネットワーク環境における多言語エージェントの配置の必要性に対処する。
実験結果から,近年のインストラクション・チューニングモデルでは適切な方法で通信問題を理解できるが,必要なトラブルシューティング手順を一貫して追従し,同一シナリオの異なるバリエーションに曝露した場合の安定した動作の維持に苦慮していることが明らかとなった。
このパフォーマンスギャップは、制約のないバイリンガル設定でより顕著になる。
関連論文リスト
- Helpful to a Fault: Measuring Illicit Assistance in Multi-Turn, Multilingual LLM Agents [35.76774274440008]
STING(Sequential Testing of Illicit N-step Goal execution)は、自動化された再チームのフレームワークである。
良質なペルソナに接地されたステップバイステップの不正計画を構築し、適応的なフォローアップでターゲットエージェントを反復的にプローブする。
本稿では,マルチターン・リピートをタイム・ツー・ファースト・ジェイルブレイク確率変数としてモデル化する分析フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-18T10:31:19Z) - ComAgent: Multi-LLM based Agentic AI Empowered Intelligent Wireless Networks [62.031889234230725]
6Gネットワークは複雑な層間最適化に依存している。
数学の定式化に高レベルの意図を手動で翻訳することは、まだボトルネックである。
我々はマルチLLMエージェントAIフレームワークであるComAgentを紹介する。
論文 参考訳(メタデータ) (2026-01-27T13:43:59Z) - Bridging the Knowledge Void: Inference-time Acquisition of Unfamiliar Programming Languages for Coding Tasks [22.908904483320953]
コーディングタスクにおけるLarge Language Models (LLM) は、しばしばその広範な事前学習コーパスの反映である。
動作プリミティブのセットをLCMに装備する一般のIRAフレームワークであるIRAエージェントを提案する。
我々は,Cangjie 用の ILA エージェントをインスタンス化し,コード生成,翻訳,プログラム修復タスクのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2026-01-16T09:06:47Z) - MM-Telco: Benchmarks and Multimodal Large Language Models for Telecom Applications [9.282400615034534]
大規模言語モデル(LLM)は、複雑な推論と意思決定タスクを自動化する強力なツールとして登場した。
通信では、ネットワーク最適化を変革し、トラブルシューティングを自動化し、顧客サポートを強化し、規制コンプライアンスを確実にする可能性を秘めている。
本稿では,テレコムドメインに適したベンチマークとモデルの総合的なスイートであるMM-Telcoを提案する。
論文 参考訳(メタデータ) (2025-11-17T08:34:41Z) - SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models [59.90381306452982]
ソフトウェアエンジニアリングのための大規模言語モデル(LLM)の評価は、タスクカバレッジの狭さ、言語バイアス、現実世界の開発者との整合性の不足によって制限されている。
SWE-1は、不均一なコード関連評価を構造化および生産整合性のあるフレームワークに統合する包括的なベンチマークである。
SWE-は8つのタスクタイプ、8つのプログラミングシナリオ、10のプログラミング言語にまたがる。
論文 参考訳(メタデータ) (2025-11-07T18:01:32Z) - ContextNav: Towards Agentic Multimodal In-Context Learning [85.05420047017513]
ContextNavは、自動検索のスケーラビリティと人間のようなキュレーションの品質と適応性を統合するエージェントフレームワークである。
リソースを意識したマルチモーダル埋め込みパイプラインを構築し、検索可能なベクトルデータベースを維持し、エージェント検索と構造アライメントを適用して、ノイズ耐性のあるコンテキストを構築する。
実験の結果、ContextNavはさまざまなデータセットで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-06T07:49:52Z) - A Pilot Study on LLM-Based Agentic Translation from Android to iOS: Pitfalls and Insights [27.632954643254884]
大規模言語モデル(LLM)は、最近、様々な粒度のコード翻訳を強化するために利用された。
本研究は,モバイルアプリケーション翻訳におけるLSMに基づくエージェントアプローチの評価により,このギャップを埋めることを目的とする。
我々は,依存関係,仕様,プログラム構造,プログラム制御フローを考慮したエージェントの連鎖を開発した。
論文 参考訳(メタデータ) (2025-07-21T20:11:01Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。