論文の概要: Beyond Black-Box Benchmarking: Observability, Analytics, and Optimization of Agentic Systems
- arxiv url: http://arxiv.org/abs/2503.06745v1
- Date: Sun, 09 Mar 2025 20:02:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 20:09:44.603787
- Title: Beyond Black-Box Benchmarking: Observability, Analytics, and Optimization of Agentic Systems
- Title(参考訳): Black-Boxベンチマークを超えて - エージェントシステムの可観測性、分析、最適化
- Authors: Dany Moshkovich, Hadar Mulian, Sergey Zeltyn, Natti Eder, Inna Skarbovsky, Roy Abitbol,
- Abstract要約: エージェントがさまざまなタスクを実行するために協力するエージェントAIシステムの台頭は、その振る舞いを観察し、分析し、最適化する上で、新たな課題を提起する。
従来の評価とベンチマークのアプローチは、これらのシステムの非決定論的、文脈に敏感で動的な性質を扱うのに苦労する。
本稿では,エージェントシステムを開発,テスト,保守にまたがって分析・最適化する上で重要な課題と機会について考察する。
- 参考スコア(独自算出の注目度): 1.415098516077151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of agentic AI systems, where agents collaborate to perform diverse tasks, poses new challenges with observing, analyzing and optimizing their behavior. Traditional evaluation and benchmarking approaches struggle to handle the non-deterministic, context-sensitive, and dynamic nature of these systems. This paper explores key challenges and opportunities in analyzing and optimizing agentic systems across development, testing, and maintenance. We explore critical issues such as natural language variability and unpredictable execution flows, which hinder predictability and control, demanding adaptive strategies to manage input variability and evolving behaviors. Through our user study, we supported these hypotheses. In particular, we showed a 79% agreement that non deterministic flow of agentic systems acts as a major challenge. Finally, we validated our statements empirically advocating the need for moving beyond classical benchmarking. To bridge these gaps, we introduce taxonomies to present expected analytics outcomes and the ways to collect them by extending standard observability frameworks. Building on these foundations, we introduce and demonstrate novel approach for benchmarking of agent evaluation systems. Unlike traditional "black box" performance evaluation approaches, our benchmark is built from agent runtime logs as input, and analytics outcome including discovered flows and issues. By addressing key limitations in existing methodologies, we aim to set the stage for more advanced and holistic evaluation strategies, which could foster the development of adaptive, interpretable, and robust agentic AI systems.
- Abstract(参考訳): エージェントがさまざまなタスクを実行するために協力するエージェントAIシステムの台頭は、その振る舞いを観察し、分析し、最適化する上で、新たな課題を提起する。
従来の評価とベンチマークのアプローチは、これらのシステムの非決定論的、文脈に敏感で動的な性質を扱うのに苦労する。
本稿では,エージェントシステムを開発,テスト,保守にまたがって分析・最適化する上での課題と機会について考察する。
予測可能性や制御の妨げとなる自然言語の可変性や予測不可能な実行フロー,入力の可変性や振る舞いの進化を管理する適応戦略といった重要な問題について検討する。
ユーザスタディを通じて、私たちはこれらの仮説を支持しました。
特に,エージェントシステムの非決定論的流れが大きな課題となるという79%の合意を示した。
最後に、古典的なベンチマークを超えて進む必要性を実証的に主張する声明を検証した。
これらのギャップを埋めるために、予測される分析結果を示す分類学と、標準可観測性フレームワークを拡張してそれらを収集する方法を導入する。
これらの基礎の上に構築され,エージェント評価システムのベンチマークのための新しいアプローチを導入し,実証する。
従来の"ブラックボックス"のパフォーマンス評価アプローチとは異なり、ベンチマークはエージェントのランタイムログを入力として構築し、フローや問題の発見を含む分析結果を生成する。
既存の方法論における重要な制限に対処することで、適応的、解釈可能、堅牢なエージェントAIシステムの開発を促進する、より高度で包括的な評価戦略のステージを設定することを目指している。
関連論文リスト
- SEED-SET: Scalable Evolving Experimental Design for System-level Ethical Testing [17.31500098002456]
SEED-SETは、ドメイン固有の客観的評価と利害関係者による主観的価値判断を含む実験的な設計フレームワークである。
自律エージェントの倫理的ベンチマークのためのアプローチを2つのアプリケーションで検証し、ベストを尽くす方法を見つける。
論文 参考訳(メタデータ) (2026-03-02T09:06:28Z) - The Landscape of Prompt Injection Threats in LLM Agents: From Taxonomy to Analysis [24.51410516475904]
The Prompt Injection (PI) landscape, including attack, Defenses, and their evaluation practices。
我々は,コンテキストに依存したインタラクション設定下でエージェントの振る舞いを体系的に評価する新しいベンチマークであるAgentPIを紹介する。
我々は,文脈依存推論が不可欠である現実的なエージェント設定に一般化することができないが,文脈依存的入力を抑えることで,既存のベンチマークにおいて多くの防御が有効であることを示す。
論文 参考訳(メタデータ) (2026-02-11T02:47:10Z) - From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - Let the Barbarians In: How AI Can Accelerate Systems Performance Research [80.43506848683633]
我々は、この繰り返しサイクルを、AI駆動システム研究の生成、評価、洗練のサイクルと呼ぶ。
我々はADRSが生成するソリューションが人間の最先端の設計に適合し、さらに優れることを示した。
論文 参考訳(メタデータ) (2025-12-16T18:51:23Z) - LLM-based Agentic Reasoning Frameworks: A Survey from Methods to Scenarios [63.08653028889316]
エージェント推論フレームワークを分解し,これらのフレームワークがどのようにフレームワークレベルの推論を支配しているかを分析する。
具体的には,エージェント推論システムを単一エージェントメソッド,ツールベースメソッド,マルチエージェントメソッドに分類するための統一形式言語を提案する。
我々は、科学的発見、医療、ソフトウェア工学、社会シミュレーション、経済学における彼らの主要な応用シナリオを包括的にレビューする。
論文 参考訳(メタデータ) (2025-08-25T06:01:16Z) - A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems [53.37728204835912]
既存のAIシステムは、デプロイ後も静的な手作業による構成に依存している。
近年,インタラクションデータと環境フィードバックに基づいてエージェントシステムを自動拡張するエージェント進化手法が研究されている。
この調査は、自己進化型AIエージェントの体系的な理解を研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-08-10T16:07:32Z) - Alignment and Safety in Large Language Models: Safety Mechanisms, Training Paradigms, and Emerging Challenges [47.14342587731284]
本調査では,大規模言語モデル(LLM)アライメントにおけるアライメント手法,トレーニングプロトコル,経験的発見について概観する。
我々は多種多様なパラダイムをまたいだアライメント手法の開発を分析し、コアアライメント目標間の基本的なトレードオフを特徴づける。
我々は、直接選好最適化(DPO)、構成AI、脳インスパイアされた方法、アライメント不確実性定量化(AUQ)など、最先端技術について議論する。
論文 参考訳(メタデータ) (2025-07-25T20:52:58Z) - A Framework for Adversarial Analysis of Decision Support Systems Prior to Deployment [0.33928435949901725]
本稿では,Deep Reinforcement Learning (DRL) を用いて学習した意思決定支援システムの分析とセキュア化のためのフレームワークを提案する。
我々は,我々のフレームワークを検証し,エージェントの振る舞いを可視化し,カスタム構築戦略ゲームCyberStrikeのコンテキストにおける敵の成果を評価する。
論文 参考訳(メタデータ) (2025-05-27T16:41:23Z) - Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。
本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - A Comprehensive Review on Hashtag Recommendation: From Traditional to Deep Learning and Beyond [0.37865171120254354]
ハッシュタグは、基本的な分類メカニズムとして、コンテンツの可視性とユーザエンゲージメントを高める上で重要な役割を果たす。
正確で堅牢なハッシュタグレコメンデーションシステムの開発は、依然として複雑で進化中の研究課題である。
本稿では,ハッシュタグレコメンデーションシステムの体系的解析を行い,近年のいくつかの側面にわたる進歩について検討する。
論文 参考訳(メタデータ) (2025-03-24T13:40:36Z) - Survey on Evaluation of LLM-based Agents [28.91672694491855]
LLMベースのエージェントの出現は、AIのパラダイムシフトを表している。
本稿では,これらのエージェントに対する評価手法に関する総合的な調査を初めて実施する。
論文 参考訳(メタデータ) (2025-03-20T17:59:23Z) - Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation [2.2241228857601727]
本稿では,定量的なベンチマーク手法の欠点を論じる,約100の学術研究の学際的メタレビューを示す。
これは、より広範な社会技術的問題を伴うベンチマークの設計と適用において、多くのきめ細かい問題をもたらす。
レビューではまた、不正なインセンティブ、妥当性の問題の構築、未知の未知、ベンチマーク結果のゲームに関する問題など、現在のプラクティスにおける一連のシステム的欠陥についても取り上げている。
論文 参考訳(メタデータ) (2025-02-10T15:25:06Z) - The simulation of judgment in LLMs [32.57692724251287]
大規模言語モデル(LLM)は、情報フィルタリングから説明と信頼性の判断を通じて知識ギャップの評価と対処に至るまで、評価プロセスに組み込まれている。
これにより、このような評価がどのように構築されるのか、どのような仮定に依存しているのか、その戦略が人間のものとどのように異なるのかを調べる必要が生じる。
我々は、専門家の評価に対して、6つのLCM(NewsGuardとMedia Bias/Fact Check)と、制御された実験を通して収集された人間の判断に対してベンチマークを行った。
論文 参考訳(メタデータ) (2025-02-06T18:52:10Z) - Revisiting Benchmark and Assessment: An Agent-based Exploratory Dynamic Evaluation Framework for LLMs [29.72874725703848]
従来のQAベンチマークを、より柔軟な戦略基準のフォーマットに拡張するBenchmark+と、インタラクションプロセスを強化するAccess+という2つの主要な概念を紹介します。
検索強化生成と強化学習を用いてこれらの概念を実装するエージェントベースの評価フレームワークであるTestAgentを提案する。
TestAgentは、さまざまな垂直ドメインシナリオにわたる動的ベンチマークの自動生成と詳細な評価を可能にする。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文 参考訳(メタデータ) (2023-10-25T05:38:38Z) - Data-Scarce Identification of Game Dynamics via Sum-of-Squares Optimization [29.568222003322344]
マルチプレイヤーの正規形式ゲームにおけるゲームダイナミクスを識別するためのサイドインフォーム支援回帰(SIAR)フレームワークを提案する。
SIARは、SOS(sum-of-squares)最適化を用いて解決され、その結果、システムの真の力学に確実に収束する近似の階層となる。
SIARフレームワークは,未知のシステムがカオスであっても,通常のゲーム,広く知られているゲームダイナミクスのファミリー,強力なベンチマークの範囲で,プレーヤの挙動を正確に予測する。
論文 参考訳(メタデータ) (2023-07-13T09:14:48Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。