論文の概要: AI-NativeBench: An Open-Source White-Box Agentic Benchmark Suite for AI-Native Systems
- arxiv url: http://arxiv.org/abs/2601.09393v1
- Date: Wed, 14 Jan 2026 11:32:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.380949
- Title: AI-NativeBench: An Open-Source White-Box Agentic Benchmark Suite for AI-Native Systems
- Title(参考訳): AI-NativeBench:AI-Nativeシステムのためのオープンソースのホワイトボックスエージェントベンチマークスイート
- Authors: Zirui Wang, Guangba Yu, Michael R. Lyu,
- Abstract要約: 我々は、Model Context Protocol(MCP)とAgent-to-Agent(A2A)標準に基づいて、アプリケーション中心でホワイトボックスのAI-NativeベンチマークスイートであるAI-NativeBenchを紹介する。
エージェントスパンを分散トレース内の第一級市民として扱うことにより,本手法は,単純な機能以上の工学的特性の粒度解析を可能にする。
この研究は、モデル能力の測定から信頼性の高いAI-Nativeシステムへの移行を導く最初の体系的な証拠を提供する。
- 参考スコア(独自算出の注目度): 52.65695508605237
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The transition from Cloud-Native to AI-Native architectures is fundamentally reshaping software engineering, replacing deterministic microservices with probabilistic agentic services. However, this shift renders traditional black-box evaluation paradigms insufficient: existing benchmarks measure raw model capabilities while remaining blind to system-level execution dynamics. To bridge this gap, we introduce AI-NativeBench, the first application-centric and white-box AI-Native benchmark suite grounded in Model Context Protocol (MCP) and Agent-to-Agent (A2A) standards. By treating agentic spans as first-class citizens within distributed traces, our methodology enables granular analysis of engineering characteristics beyond simple capabilities. Leveraging this benchmark across 21 system variants, we uncover critical engineering realities invisible to traditional metrics: a parameter paradox where lightweight models often surpass flagships in protocol adherence, a pervasive inference dominance that renders protocol overhead secondary, and an expensive failure pattern where self-healing mechanisms paradoxically act as cost multipliers on unviable workflows. This work provides the first systematic evidence to guide the transition from measuring model capability to engineering reliable AI-Native systems. To facilitate reproducibility and further research, we have open-sourced the benchmark and dataset.
- Abstract(参考訳): Cloud-NativeからAI-Nativeアーキテクチャへの移行は、決定論的マイクロサービスを確率論的エージェントサービスに置き換え、ソフトウェアエンジニアリングを根本的に変えている。
しかし、このシフトは従来のブラックボックス評価パラダイムを不十分なものにしている。
このギャップを埋めるために、私たちは、Model Context Protocol(MCP)とAgent-to-Agent(A2A)標準を基盤とした、最初のアプリケーション中心でホワイトボックスのAI-Nativeベンチマークスイートである、AI-NativeBenchを紹介します。
エージェントスパンを分散トレース内の第一級市民として扱うことにより,本手法は,単純な機能以上の工学的特性の粒度解析を可能にする。
パラメータパラドックス — 軽量モデルがプロトコルアテンデンスにおいてフラッグシップをしばしば上回るパラメータパラドックス、プロトコルオーバヘッドを二次的にレンダリングする広範囲な推論優位性、自己修復機構がパラドックス的に不必要なワークフロー上のコスト乗算器として機能する高価な障害パターンである。
この研究は、モデル能力の測定から信頼性の高いAI-Nativeシステムへの移行を導く最初の体系的な証拠を提供する。
再現性とさらなる研究を容易にするため、ベンチマークとデータセットをオープンソース化しました。
関連論文リスト
- SoliReward: Mitigating Susceptibility to Reward Hacking and Annotation Noise in Video Generation Reward Models [53.19726629537694]
ビデオ生成モデルと人間の好みのトレーニング後のアライメントは、重要な目標である。
現在のデータ収集パラダイムは、プロンプト内のペアワイズアノテーションに依存しており、ノイズのラベル付けに悩まされている。
ビデオRMトレーニングのための体系的フレームワークであるSoliRewardを提案する。
論文 参考訳(メタデータ) (2025-12-17T14:28:23Z) - Creative Adversarial Testing (CAT): A Novel Framework for Evaluating Goal-Oriented Agentic AI Systems [0.0]
CAT(Creative Adversarial Testing)は、エージェントAIタスクとシステムの意図する目的との間の複雑な関係をキャプチャして分析するために設計された、新しいアプローチである。
我々は、Alexa+オーディオサービスに倣った合成相互作用データを用いて、CATフレームワークを広範囲にシミュレーションすることで検証する。
我々の結果は、CATフレームワークが目標とタスクのアライメントに関する前例のない洞察を提供し、エージェントAIシステムのより効率的な最適化と開発を可能にしていることを実証している。
論文 参考訳(メタデータ) (2025-09-26T23:52:20Z) - A2R: An Asymmetric Two-Stage Reasoning Framework for Parallel Reasoning [57.727084580884075]
モデルポテンシャルと実際の性能の間のギャップを埋めるために設計された非対称な2段階推論フレームワーク。
A2R-Efficientは、Qwen3-4BとQwen3-8Bシンセサイザーを組み合わせた「小型から大型」の派生型である。
その結果、A2Rはパフォーマンス・ブートスティングのフレームワークであるだけでなく、現実世界のアプリケーションに対して効率的かつ実用的なソリューションであることがわかった。
論文 参考訳(メタデータ) (2025-09-26T08:27:03Z) - White-Basilisk: A Hybrid Model for Code Vulnerability Detection [45.03594130075282]
我々は、優れた性能を示す脆弱性検出の新しいアプローチであるWhite-Basiliskを紹介する。
White-Basiliskは、パラメータ数2億の脆弱性検出タスクで結果を得る。
この研究は、コードセキュリティにおける新しいベンチマークを確立し、コンパクトで効率的に設計されたモデルが、特定のタスクにおいてより大きなベンチマークよりも優れているという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2025-07-11T12:39:25Z) - Robust Machine Unlearning for Quantized Neural Networks via Adaptive Gradient Reweighting with Similar Labels [5.868949328814509]
モデル量子化は、低ビットパラメータ表現によるエッジデバイスへのディープニューラルネットワークの効率的な展開を可能にする。
既存のマシン・アンラーニング(MU)手法は量子化されたネットワークにおける2つの基本的な制限に対処できない。
本稿では,量子化モデルのための学習フレームワークQ-MULを提案する。
論文 参考訳(メタデータ) (2025-03-18T05:22:13Z) - Joint Explainability-Performance Optimization With Surrogate Models for AI-Driven Edge Services [3.8688731303365533]
本稿では,複雑なAIモデルの予測精度と代理モデルによる近似とのバランスについて検討する。
我々は,多目的最適化(MOO)に基づく新しいアルゴリズムを導入し,複雑なモデルの予測誤差と,その出力とサロゲートの誤差を同時に最小化する。
論文 参考訳(メタデータ) (2025-03-10T19:04:09Z) - STAMP: Scalable Task And Model-agnostic Collaborative Perception [24.890993164334766]
STAMPは、異種エージェントのためのタスクおよびモデルに依存しない協調認識パイプラインである。
計算オーバーヘッドを最小限に抑え、スケーラビリティを高め、モデルのセキュリティを維持する。
第一種フレームワークとしてSTAMPは,スケーラブルでセキュアなモビリティシステムの研究を,レベル5の自律性に向けて進めることを目指している。
論文 参考訳(メタデータ) (2025-01-24T16:27:28Z) - Real-Time Anomaly Detection and Reactive Planning with Large Language Models [18.57162998677491]
例えば、大規模な言語モデル(LLM)は、インターネットスケールのデータに基づいて訓練され、ゼロショット機能を持つ。
本稿では,潜在的な異常に関する判断を安全な制御フレームワークに組み込む2段階の推論フレームワークを提案する。
これにより、モニターは、四輪車や自動運転車のような動的ロボットシステムの信頼性を向上させることができる。
論文 参考訳(メタデータ) (2024-07-11T17:59:22Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。