論文の概要: NetAgentBench: A State-Centric Benchmark for Evaluating Agentic Network Configuration
- arxiv url: http://arxiv.org/abs/2604.09678v1
- Date: Fri, 03 Apr 2026 05:11:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.620603
- Title: NetAgentBench: A State-Centric Benchmark for Evaluating Agentic Network Configuration
- Title(参考訳): NetAgentBench:エージェントネットワーク構成評価のためのステート中心ベンチマーク
- Authors: Ahmed Twabi, Yepeng Ding, Tohru Kondo,
- Abstract要約: 本稿では,FSM(Finite State Machine)形式化によるエージェントインタラクションの評価を行うベンチマークであるNetAgentBenchを紹介する。
これにより、複雑なマルチターン動作を測定するための厳密な基盤を備えたネットワーク環境が提供されます。
- 参考スコア(独自算出の注目度): 0.669087470775851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As agentic network management gains popularity, there is a critical need for evaluation frameworks that transcend static, one-shot testing. To address this, we introduce NetAgentBench, a dynamic benchmark that evaluates agent interactions through a Finite State Machine (FSM) formalization guaranteeing determinism, correctness, and bounded execution. This provides the networking landscape with a rigorous foundation to measure complex, multi-turn operational behaviors. Our empirical evaluation of four state-of-the-art LLM agents through diverse network configuration tasks reveals stark deficiencies: while agents can solve basic tasks, they suffer severe exploration meltdowns and coherence collapse during expert-level configurations. Ultimately, NetAgentBench demonstrates that systematically evaluating multi-turn behavioral stability is an indispensable step toward realizing trustworthy, fully autonomous networks.
- Abstract(参考訳): エージェントネットワーク管理が普及するにつれて、静的なワンショットテストを超えた評価フレームワークが不可欠である。
本稿では,FSM(Finite State Machine)の定式化によるエージェントインタラクションの評価を行う動的ベンチマークであるNetAgentBenchを紹介する。
これにより、複雑なマルチターン動作を測定するための厳格な基盤を備えたネットワーク環境が提供されます。
各種ネットワーク構成タスクによる4つのLLMエージェントの実証評価により, エージェントは基本的なタスクを解くことができるが, 専門家レベルの構成において, 厳密な探査融解とコヒーレンス崩壊に悩まされる。
最終的にNetAgentBenchは、マルチターンの動作安定性を体系的に評価することは、信頼できる完全に自律的なネットワークを実現するための必要不可欠なステップであることを示した。
関連論文リスト
- Beyond Benchmark Islands: Toward Representative Trustworthiness Evaluation for Agentic AI [45.21562889170875]
シナリオ多様体に対するエージェントの信頼性を特徴付けるシステム評価パラダイムを提案する。
このフレームワークは,静的認知と政策分析,対話型サンドボックスシミュレーション,社会倫理アライメントアライメントアセスメント,および(iv)分散対応の代表サンプリングエンジンの4つの補完的コンポーネントを統合している。
論文 参考訳(メタデータ) (2026-03-16T08:51:33Z) - AgentTrace: A Structured Logging Framework for Agent System Observability [0.0]
AgentTraceは、このギャップを埋めるために設計された動的可観測性とテレメトリフレームワークである。
従来のロギングシステムとは異なり、AgentTraceは継続的でイントロスペクタブルなトレースキャプチャを強調している。
我々の研究は、AgentTraceがより信頼性の高いエージェントデプロイメント、きめ細かいリスク分析、情報信頼の校正を可能にする方法を強調している。
論文 参考訳(メタデータ) (2026-02-07T04:04:59Z) - Multi-Agent Collaborative Intrusion Detection for Low-Altitude Economy IoT: An LLM-Enhanced Agentic AI Framework [60.72591149679355]
低高度経済の急速な拡大により、インターネット・オブ・モノ(LAE-IoT)ネットワークは前例のないセキュリティ上の課題を生んだ。
従来の侵入検知システムは、空中IoT環境のユニークな特徴に対処できない。
LAE-IoTネットワークにおける侵入検出を強化するための大規模言語モデル(LLM)対応エージェントAIフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-25T12:47:25Z) - AgentCompass: Towards Reliable Evaluation of Agentic Workflows in Production [4.031479494871582]
本稿では,エージェントパイプラインのデプロイ後監視と推論に特化して設計された,最初の評価フレームワークであるAgentを紹介する。
Agentは、主要なメトリクスに関する最先端の結果を達成すると同時に、人間のアノテーションで見逃された重要な問題を明らかにする。
論文 参考訳(メタデータ) (2025-09-18T05:59:04Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites [9.58858258192147]
実世界のWebサイトの決定論的シミュレーションにおけるマルチターンエージェント評価のためのベンチマークおよびフレームワークであるREALを紹介する。
また、日々の複雑なユーザインタラクションを反映した112の実践的なタスクからなるベンチマークもリリースしています。
我々のフレームワークは、新しいタスクの容易な統合、再現可能な評価、スケーラブルな後学習データ生成をサポートします。
論文 参考訳(メタデータ) (2025-04-15T18:22:55Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - Reputation-driven Decision-making in Networks of Stochastic Agents [0.0]
RepNet-MDP と呼ばれる Markov Decision Process 由来のフレームワークを提案する。
一連の実験では、RepNetエージェントは、ネットワークの残りのエージェントの過去の振る舞いと信頼性に自身の振る舞いを適応できることが示されている。
論文 参考訳(メタデータ) (2020-08-26T20:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。