論文の概要: NetPress: Dynamically Generated LLM Benchmarks for Network Applications
- arxiv url: http://arxiv.org/abs/2506.03231v1
- Date: Tue, 03 Jun 2025 14:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:13.967998
- Title: NetPress: Dynamically Generated LLM Benchmarks for Network Applications
- Title(参考訳): NetPress: ネットワークアプリケーションのための動的に生成されたLLMベンチマーク
- Authors: Yajie Zhou, Jiajun Ruan, Eric S. Wang, Sadjad Fouladi, Francis Y. Yan, Kevin Hsieh, Zaoxing Liu,
- Abstract要約: NetPressは、大規模言語モデル(LLM)とエージェントをネットワークアプリケーションで評価するための自動ベンチマーク生成フレームワークである。
実行時に、数百万のクエリをオンザフライで生成するベンチマーク設定を指定することができる。
我々はNetPressを3つの代表的なアプリケーションでインスタンス化し、静的で正当性のみのベンチマークがしばしば見逃すエージェントの挙動の興味深い微妙な違いを明らかにした。
- 参考スコア(独自算出の注目度): 5.3486652708386435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite growing interest in domain-specific benchmarking of large language models (LLMs) and agents, current evaluations remain limited to static, small-scale datasets, especially in high-stakes tasks like network operations that demand reliability for deployments. We present NetPress, an automated benchmark generation framework for evaluating LLM agents in network applications. NetPress introduces a unified abstraction with state and action, enabling dynamic generation of diverse query sets along with corresponding ground truths. At runtime, users can specify benchmark configurations to generate millions of queries on the fly. In addition to dynamic benchmark construction, NetPress integrates with network emulators to provide realistic environment feedback, supporting comprehensive evaluation across correctness, safety, and latency. We instantiate NetPress on three representative applications, revealing interesting fine-grained differences in agent behavior that static, correctness-only benchmarks often miss. NetPress moves LLM evaluation toward realistic, scalable testing in infrastructure-centric domains, helping close the gap between benchmark performance and real-world deployment readiness. Code is available at https://github.com/Froot-NetSys/NetPress.
- Abstract(参考訳): 大規模言語モデル(LLM)とエージェントのドメイン固有のベンチマークへの関心は高まっているが、現在の評価は、特にデプロイメントに信頼性を必要とするネットワーク操作のような高い処理において、静的な小規模データセットに限られている。
本稿では,ネットワークアプリケーションにおけるLLMエージェント評価のためのベンチマーク自動生成フレームワークNetPressを提案する。
NetPressは状態とアクションを統一した抽象化を導入し、多様なクエリセットと対応する基底真理を動的に生成することを可能にする。
実行時に、数百万のクエリをオンザフライで生成するベンチマーク設定を指定することができる。
動的ベンチマーク構築に加えて、NetPressはネットワークエミュレータと統合して、現実的な環境フィードバックを提供し、正確性、安全性、レイテンシの包括的な評価をサポートする。
我々はNetPressを3つの代表的なアプリケーションでインスタンス化し、静的で正当性のみのベンチマークがしばしば見逃すエージェントの挙動の興味深い微妙な違いを明らかにした。
NetPressはLLM評価を、インフラストラクチャ中心のドメインにおける現実的でスケーラブルなテストへと移行し、ベンチマークパフォーマンスと実際のデプロイメント準備のギャップを埋める。
コードはhttps://github.com/Froot-NetSys/NetPress.comで入手できる。
関連論文リスト
- Mobile-Bench-v2: A More Realistic and Comprehensive Benchmark for VLM-based Mobile Agents [33.899782380901314]
VLMベースのモバイルエージェントは、スマートフォンのGUIやXML構造化テキストと対話できることから、ますます人気が高まっている。
既存のオンラインベンチマークは、動的環境変化による安定した報酬信号を得るのに苦労している。
Mobile-Bench-v2は共通タスク分割を含み、オフラインのマルチパス評価によってエージェントがステップ報酬を得る能力を評価する。
論文 参考訳(メタデータ) (2025-05-17T07:58:34Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - TestAgent: A Framework for Domain-Adaptive Evaluation of LLMs via Dynamic Benchmark Construction and Exploratory Interaction [29.72874725703848]
大規模言語モデル(LLM)は、様々な垂直領域に徐々に展開されている。
現在の評価方法は、実世界の要求に合致しない静的でリソース集約的なデータセットに依存している。
textbfBenchmark+は従来の質問応答ベンチマークを、より柔軟な戦略基準のフォーマットに拡張します。
我々は,これらの概念を実装したエージェントベースの評価フレームワークであるtextbftextscTestAgentを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - AgentStudio: A Toolkit for Building General Virtual Agents [57.02375267926862]
一般的な仮想エージェントは、マルチモーダルな観察、複雑なアクション空間のマスター、動的でオープンなドメイン環境における自己改善を扱う必要がある。
AgentStudioは、非常に汎用的な観察とアクション空間を備えた軽量でインタラクティブな環境を提供する。
オンラインベンチマークタスクの作成、GUI要素の注釈付け、ビデオ内のアクションのラベル付けといったツールを統合する。
環境とツールに基づいて、GUIインタラクションと関数呼び出しの両方を効率的な自動評価でベンチマークするオンラインタスクスイートをキュレートします。
論文 参考訳(メタデータ) (2024-03-26T17:54:15Z) - Dynabench: Rethinking Benchmarking in NLP [82.26699038776812]
動的データセットの作成とモデルベンチマークのためのオープンソースプラットフォームであるdynabenchを紹介する。
DynabenchはWebブラウザで動作し、ループ内の人間とモデルデータセットの作成をサポートする。
私たちは、これらの概念を図示し、プラットフォームの約束を強調する4つの初期のNLPタスクを報告します。
論文 参考訳(メタデータ) (2021-04-07T17:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。