論文の概要: AgentArch: A Comprehensive Benchmark to Evaluate Agent Architectures in Enterprise
- arxiv url: http://arxiv.org/abs/2509.10769v1
- Date: Sat, 13 Sep 2025 01:18:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.772228
- Title: AgentArch: A Comprehensive Benchmark to Evaluate Agent Architectures in Enterprise
- Title(参考訳): AgentArch: 企業におけるエージェントアーキテクチャ評価のための総合ベンチマーク
- Authors: Tara Bogavelli, Roshnee Sharma, Hari Subramani,
- Abstract要約: 本稿では、オーケストレーション戦略、エージェントプロンプト実装(ReAct vs. 関数呼び出し)、メモリアーキテクチャ、思考ツール統合の4つの重要なエージェントシステム側面について検討する。
我々のベンチマークでは、エージェントAIシステムにおいて、一般的なワンサイズ・オールパラダイムに挑戦する、重要なモデル固有のアーキテクチャ上の嗜好を明らかにしている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While individual components of agentic architectures have been studied in isolation, there remains limited empirical understanding of how different design dimensions interact within complex multi-agent systems. This study aims to address these gaps by providing a comprehensive enterprise-specific benchmark evaluating 18 distinct agentic configurations across state-of-the-art large language models. We examine four critical agentic system dimensions: orchestration strategy, agent prompt implementation (ReAct versus function calling), memory architecture, and thinking tool integration. Our benchmark reveals significant model-specific architectural preferences that challenge the prevalent one-size-fits-all paradigm in agentic AI systems. It also reveals significant weaknesses in overall agentic performance on enterprise tasks with the highest scoring models achieving a maximum of only 35.3\% success on the more complex task and 70.8\% on the simpler task. We hope these findings inform the design of future agentic systems by enabling more empirically backed decisions regarding architectural components and model selection.
- Abstract(参考訳): エージェントアーキテクチャの個々のコンポーネントは独立して研究されているが、複雑なマルチエージェントシステムの中で異なる設計次元がどのように相互作用するかについての経験的理解は限られている。
本研究の目的は、最先端の大規模言語モデル間で18の異なるエージェント構成を評価する包括的な企業固有のベンチマークを提供することによって、これらのギャップに対処することである。
本稿では、オーケストレーション戦略、エージェントプロンプト実装(ReAct vs. 関数呼び出し)、メモリアーキテクチャ、思考ツール統合の4つの重要なエージェントシステム側面について検討する。
我々のベンチマークでは、エージェントAIシステムにおいて、一般的なワンサイズ・オールパラダイムに挑戦する、重要なモデル固有のアーキテクチャ上の嗜好を明らかにしている。
また、より複雑なタスクでは最大35.3\%、より単純なタスクでは70.8\%という最高スコアのモデルで、エンタープライズタスクにおけるエージェントパフォーマンス全体の大きな弱点を明らかにしている。
これらの知見は、アーキテクチャコンポーネントやモデル選択に関して、より経験的に支援された決定を可能にすることによって、将来のエージェントシステムの設計を知らせることを願っている。
関連論文リスト
- MCP-Orchestrated Multi-Agent System for Automated Disinformation Detection [84.75972919995398]
本稿では,関係抽出を用いてニュース記事の偽情報を検出するマルチエージェントシステムを提案する。
提案したエージェントAIシステムは、(i)機械学習エージェント(ロジスティック回帰)、(ii)Wikipedia知識チェックエージェント、(iv)Webスクラッドデータアナライザの4つのエージェントを組み合わせる。
その結果、マルチエージェントアンサンブルはF1スコア0.964で95.3%の精度を達成し、個々のエージェントや従来のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-13T19:14:48Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - Deep Research Agents: A Systematic Examination And Roadmap [109.53237992384872]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。
本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文 参考訳(メタデータ) (2025-06-22T16:52:48Z) - AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。
既存のエージェントサーチ手法には3つの大きな制限がある。
これらの課題に対処するための包括的なフレームワークを導入します。
論文 参考訳(メタデータ) (2025-06-06T12:07:23Z) - Comparative Analysis of AI Agent Architectures for Entity Relationship Classification [1.6887793771613606]
本研究では,3つの異なるAIエージェントアーキテクチャの比較分析を行い,関係分類を行う。
エージェントアーキテクチャは,(1)反射的自己評価,(2)階層的タスク分解,(3)新しいマルチエージェント動的サンプル生成機構を含む。
実験により,マルチエージェントの協調が標準のショットプロンプトより一貫して優れていることが実証された。
論文 参考訳(メタデータ) (2025-06-03T04:19:47Z) - Distinguishing Autonomous AI Agents from Collaborative Agentic Systems: A Comprehensive Framework for Understanding Modern Intelligent Architectures [0.0]
大規模言語モデルの出現は、人工知能の2つの異なる相互接続パラダイム、すなわちスタンドアロンAIエージェントと協調エージェントAIエコシステムを触媒した。
本研究は, 運用原則, 構造構成, 配置方法論の体系的解析を通じて, これらのアーキテクチャを識別するための決定的な枠組みを確立する。
論文 参考訳(メタデータ) (2025-06-02T08:52:23Z) - LLM-Agent-UMF: LLM-based Agent Unified Modeling Framework for Seamless Integration of Multi Active/Passive Core-Agents [0.0]
LLM-Agent-UMF(LLM-Agent-UMF)に基づく新しいエージェント統一モデリングフレームワークを提案する。
我々のフレームワークはLLMエージェントの異なるコンポーネントを区別し、LLMとツールを新しい要素であるコアエージェントから分離する。
我々は,13の最先端エージェントに適用し,それらの機能との整合性を実証することによって,我々の枠組みを評価する。
論文 参考訳(メタデータ) (2024-09-17T17:54:17Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。