論文の概要: SKILLS: Structured Knowledge Injection for LLM-Driven Telecommunications Operations
- arxiv url: http://arxiv.org/abs/2603.15372v1
- Date: Mon, 16 Mar 2026 14:48:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.507265
- Title: SKILLS: Structured Knowledge Injection for LLM-Driven Telecommunications Operations
- Title(参考訳): SKILLS:LLM駆動通信における構造化知識注入
- Authors: Ivo Brett,
- Abstract要約: 汎用言語モデル(LLM)エージェントは、実際のAPIインターフェースを介して通信操作を実行するか、あるいは、構造化されたドメインガイダンスを必要とするか?
8 TM Forum Open APIドメインにまたがる37の通信シナリオからなるベンチマークフレームワークであるSKILLSを紹介した。
5つのオープンウェイトモデル条件と185のシナリオランの結果は、すべてのモデルで一貫したスキルリフトを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As telecommunications operators accelerate adoption of AI-enabled automation, a practical question remains unresolved: can general-purpose large language model (LLM) agents reliably execute telecom operations workflows through real API interfaces, or do they require structured domain guidance? We introduce SKILLS (Structured Knowledge Injection for LLM-driven Service Lifecycle operations), a benchmark framework comprising 37 telecom operations scenarios spanning 8 TM Forum Open API domains (TMF620, TMF621, TMF622, TMF628, TMF629, TMF637, TMF639, TMF724). Each scenario is grounded in live mock API servers with seeded production-representative data, MCP tool interfaces, and deterministic evaluation rubrics combining response content checks, tool-call verification, and database state assertions. We evaluate open-weight models under two conditions: baseline (generic agent with tool access but no domain guidance) and with-skill (agent augmented with a portable SKILL.md document encoding workflow logic, API patterns, and business rules). Results across 5 open-weight model conditions and 185 scenario-runs show consistent skill lift across all models. MiniMax M2.5 leads (81.1% with-skill, +13.5pp), followed by Nemotron 120B (78.4%, +18.9pp), GLM-5 Turbo (78.4%, +5.4pp), and Seed 2.0 Lite (75.7%, +18.9pp).
- Abstract(参考訳): 汎用大規模言語モデル(LLM)エージェントは、実際のAPIインターフェースを通じて、通信操作ワークフローを確実に実行することができるのか、あるいは、構造化されたドメインガイダンスを必要とするのか?
8 TM Forum Open API Domain (TMF620, TMF621, TMF622, TMF628, TMF629, TMF637, TMF639, TMF724) にまたがる37の通信シナリオからなるベンチマークフレームワークであるSKILLS(Structured Knowledge Injection for LLM-driven Service Lifecycle Operation)を紹介する。
各シナリオは、シードされたプロダクション表現データ、MPPツールインターフェース、応答内容チェック、ツールコール検証、データベース状態アサーションを組み合わせた決定論的評価ルーブリックを備えた、ライブモックAPIサーバに基盤を置いている。
オープンウェイトモデルの評価には,ベースライン(ツールアクセスを持つジェネリックエージェント,ドメインガイダンスを持たないジェネリックエージェント)と with-skill(ポータブルなSKILL.mdドキュメントにワークフローロジック,APIパターン,ビジネスルールをエンコードするエージェント)の2つの条件がある。
5つのオープンウェイトモデル条件と185のシナリオランの結果は、すべてのモデルで一貫したスキルリフトを示している。
MiniMax M2.5が81.1%、+13.5pp、Nemotron 120Bが78.4%、+18.9pp、GLM-5 Turboが78.4%、+5.4pp、Seed 2.0 Liteが75.7%、+18.9ppである。
関連論文リスト
- Interfaze: The Future of AI is built on Task-Specific Small Models [0.25489046505746704]
現代LLMアプリケーションをコンテキスト上で構築および動作する問題として扱うシステムであるInterfazeを提案する。
このスタックの上に薄いコントローラがあり、単一のOpenAIスタイルのエンドポイントを公開する。
このアーキテクチャでは、Interfaze-BetaはMMLU-Proで83.6%、MMLUで91.4%、GPQA-Diamondで81.3%、LiveCodeBench v5で57.8%、AIME-2025で90.0%を達成している。
論文 参考訳(メタデータ) (2026-02-04T00:36:37Z) - FARM: Field-Aware Resolution Model for Intelligent Trigger-Action Automation [0.0]
機能レベル設定の問題として,適切な材料間結合による完全アプレットの生成について検討する。
完全構成のアプレット自動生成のための2段階アーキテクチャであるFARM(Field-Aware Resolution Model)を提案する。
FARMは機能レベルでゴールド(ノイズ62%、ワンショット70%)で81%の関節精度を達成する。
論文 参考訳(メタデータ) (2026-01-22T06:12:18Z) - Beyond Rule-Based Workflows: An Information-Flow-Orchestrated Multi-Agents Paradigm via Agent-to-Agent Communication from CORAL [0.15199492741752027]
本稿ではエージェント・ツー・エージェント(A2A)通信を用いた情報フロー型マルチエージェントパラダイムを提案する。
汎用ベンチマークGAIAに対する我々のアプローチを,代表的ワークフローベースMASをベースラインとして評価した。
本手法は63.64%の精度を達成し, OWL の55.15% を8.49 % に上回り, トークン消費に匹敵する性能を示した。
論文 参考訳(メタデータ) (2026-01-14T21:35:51Z) - GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models [194.64264251080454]
GLM-4.5はオープンソースのMixture-of-Experts(MoE)大言語モデルであり,総パラメータは355B,アクティベートパラメータは32Bである。
23Tトークンのマルチステージトレーニングと、エキスパートモデルのイテレーションと強化学習による総合的なポストトレーニングを通じて、GLM-4.5はエージェント、推論、コーディングタスクにわたって強力なパフォーマンスを実現している。
GLM-4.5(355Bパラメータ)とGLM-4.5-Air(106Bパラメータ)をそれぞれリリースし、推論とエージェントAIシステムの研究を進めた。
論文 参考訳(メタデータ) (2025-08-08T17:21:06Z) - LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools? [50.60770039016318]
モデルコンテキストプロトコル(MCP)エージェントをベンチマークする最初の総合ベンチマークであるLiveMCPBenchを紹介する。
LiveMCPBenchは、MPPエコシステムに根ざした95の現実世界のタスクで構成されている。
評価は10の先行モデルを対象としており、最高の性能のモデルが78.95%の成功率に達した。
論文 参考訳(メタデータ) (2025-08-03T14:36:42Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - ChatCFD: An LLM-Driven Agent for End-to-End CFD Automation with Domain-Specific Structured Reasoning [4.098524616768554]
ChatCFDはOpenFOAMシミュレーションのための自動エージェントシステムである。
その4段階のパイプラインは、複雑なセットアップのために反復的なトライアル-リフレクション-リファインメントを可能にする。
ChatCFDは、協調マルチエージェントシステムのためのMPPベースのエージェントネットワークにおいて、モジュラーコンポーネントとして強力な可能性を示している。
論文 参考訳(メタデータ) (2025-05-28T08:43:49Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Model-driven realization of IDTA submodel specifications: The good, the bad, the incompatible? [49.60138105915326]
アセット・マネジメント・シェルは産業4.0でトレンドになっている。
2024年2月、インダストリアル・デジタル・ツイン・アソシエーション (Industrial Digital Twin Association) は84と18のASサブモデル仕様を発表した。
本稿では、IDTA仕様から抽出した情報を中間メタモデルに変換し、そこからAPIコードとテストを生成するモデル駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2024-06-20T16:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。