Fugu-MT 論文翻訳(概要): AgentArch: A Comprehensive Benchmark to Evaluate Agent Architectures in Enterprise

論文の概要: AgentArch: A Comprehensive Benchmark to Evaluate Agent Architectures in Enterprise

arxiv url: http://arxiv.org/abs/2509.10769v1
Date: Sat, 13 Sep 2025 01:18:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-16 17:26:22.772228
Title: AgentArch: A Comprehensive Benchmark to Evaluate Agent Architectures in Enterprise
Title（参考訳）: AgentArch: 企業におけるエージェントアーキテクチャ評価のための総合ベンチマーク
Authors: Tara Bogavelli, Roshnee Sharma, Hari Subramani,
Abstract要約: 本稿では、オーケストレーション戦略、エージェントプロンプト実装(ReAct vs. 関数呼び出し)、メモリアーキテクチャ、思考ツール統合の4つの重要なエージェントシステム側面について検討する。我々のベンチマークでは、エージェントAIシステムにおいて、一般的なワンサイズ・オールパラダイムに挑戦する、重要なモデル固有のアーキテクチャ上の嗜好を明らかにしている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: While individual components of agentic architectures have been studied in isolation, there remains limited empirical understanding of how different design dimensions interact within complex multi-agent systems. This study aims to address these gaps by providing a comprehensive enterprise-specific benchmark evaluating 18 distinct agentic configurations across state-of-the-art large language models. We examine four critical agentic system dimensions: orchestration strategy, agent prompt implementation (ReAct versus function calling), memory architecture, and thinking tool integration. Our benchmark reveals significant model-specific architectural preferences that challenge the prevalent one-size-fits-all paradigm in agentic AI systems. It also reveals significant weaknesses in overall agentic performance on enterprise tasks with the highest scoring models achieving a maximum of only 35.3\% success on the more complex task and 70.8\% on the simpler task. We hope these findings inform the design of future agentic systems by enabling more empirically backed decisions regarding architectural components and model selection.
Abstract（参考訳）: エージェントアーキテクチャの個々のコンポーネントは独立して研究されているが、複雑なマルチエージェントシステムの中で異なる設計次元がどのように相互作用するかについての経験的理解は限られている。本研究の目的は、最先端の大規模言語モデル間で18の異なるエージェント構成を評価する包括的な企業固有のベンチマークを提供することによって、これらのギャップに対処することである。本稿では、オーケストレーション戦略、エージェントプロンプト実装(ReAct vs. 関数呼び出し)、メモリアーキテクチャ、思考ツール統合の4つの重要なエージェントシステム側面について検討する。我々のベンチマークでは、エージェントAIシステムにおいて、一般的なワンサイズ・オールパラダイムに挑戦する、重要なモデル固有のアーキテクチャ上の嗜好を明らかにしている。また、より複雑なタスクでは最大35.3\%、より単純なタスクでは70.8\%という最高スコアのモデルで、エンタープライズタスクにおけるエージェントパフォーマンス全体の大きな弱点を明らかにしている。これらの知見は、アーキテクチャコンポーネントやモデル選択に関して、より経験的に支援された決定を可能にすることによって、将来のエージェントシステムの設計を知らせることを願っている。

関連論文リスト

Designing Domain-Specific Agents via Hierarchical Task Abstraction Mechanism [61.01709143437043]
階層型タスク抽象化機構(HTAM)を中心とした新しいエージェント設計フレームワークを提案する。具体的には、HTAMは、社会的役割のエミュレーションを超えて、代わりに、複数のエージェントシステムを、あるドメインの固有のタスク依存グラフを反映する論理階層に構造化する。我々は、複雑な地理空間解析に適したマルチエージェントシステムであるEarthAgentとして、このフレームワークをインスタンス化する。
論文参考訳（メタデータ） (2025-11-21T12:25:47Z)
AgentArcEval: An Architecture Evaluation Method for Foundation Model based Agents [25.51779417301816]
本稿では,FMベースのエージェントアーキテクチャの複雑さに対処するために特別に設計されたエージェントアーキテクチャ評価手法であるAgentArcEvalを提案する。エージェント固有の汎用シナリオのカタログも提示し、エージェントアーキテクチャの設計と評価のための具体的なシナリオを生成するためのガイドとして機能する。
論文参考訳（メタデータ） (2025-10-23T22:32:03Z)
JoyAgent-JDGenie: Technical Report on the GAIA [27.025464023889853]
大規模言語モデルは、複雑な現実世界のタスクのための自律的なエージェントとして、ますます多くデプロイされている。本稿では,計画および実行エージェントを批判モデル投票と統合する汎用エージェントアーキテクチャ,作業層,意味層,手続き層にまたがる階層型メモリシステム,検索,コード実行,マルチモーダル解析のための洗練されたツールスイートを提案する。
論文参考訳（メタデータ） (2025-10-01T04:41:58Z)
MCP-Orchestrated Multi-Agent System for Automated Disinformation Detection [84.75972919995398]
本稿では,関係抽出を用いてニュース記事の偽情報を検出するマルチエージェントシステムを提案する。提案したエージェントAIシステムは、(i)機械学習エージェント(ロジスティック回帰)、(ii)Wikipedia知識チェックエージェント、(iv)Webスクラッドデータアナライザの4つのエージェントを組み合わせる。その結果、マルチエージェントアンサンブルはF1スコア0.964で95.3%の精度を達成し、個々のエージェントや従来のアプローチよりも大幅に優れていた。
論文参考訳（メタデータ） (2025-08-13T19:14:48Z)
Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。 4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文参考訳（メタデータ） (2025-08-05T12:52:09Z)
Deep Research Agents: A Systematic Examination And Roadmap [109.53237992384872]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文参考訳（メタデータ） (2025-06-22T16:52:48Z)
AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。既存のエージェントサーチ手法には3つの大きな制限がある。これらの課題に対処するための包括的なフレームワークを導入します。
論文参考訳（メタデータ） (2025-06-06T12:07:23Z)
Comparative Analysis of AI Agent Architectures for Entity Relationship Classification [1.6887793771613606]
本研究では,3つの異なるAIエージェントアーキテクチャの比較分析を行い,関係分類を行う。エージェントアーキテクチャは,(1)反射的自己評価,(2)階層的タスク分解,(3)新しいマルチエージェント動的サンプル生成機構を含む。実験により,マルチエージェントの協調が標準のショットプロンプトより一貫して優れていることが実証された。
論文参考訳（メタデータ） (2025-06-03T04:19:47Z)
Distinguishing Autonomous AI Agents from Collaborative Agentic Systems: A Comprehensive Framework for Understanding Modern Intelligent Architectures [0.0]
大規模言語モデルの出現は、人工知能の2つの異なる相互接続パラダイム、すなわちスタンドアロンAIエージェントと協調エージェントAIエコシステムを触媒した。本研究は, 運用原則, 構造構成, 配置方法論の体系的解析を通じて, これらのアーキテクチャを識別するための決定的な枠組みを確立する。
論文参考訳（メタデータ） (2025-06-02T08:52:23Z)
Topological Structure Learning Should Be A Research Priority for LLM-Based Multi-Agent Systems [69.95482609893236]
大規模言語モデルに基づくマルチエージェントシステム(MAS)は、協調的な知性によって複雑なタスクに取り組むための強力なパラダイムとして登場した。我々は,エージェント間相互作用の構造を明示的にモデル化し,動的に最適化する,エフェトロジーを意識したMASへのパラダイムシフトを求める。
論文参考訳（メタデータ） (2025-05-28T15:20:09Z)
LLM-Agent-UMF: LLM-based Agent Unified Modeling Framework for Seamless Integration of Multi Active/Passive Core-Agents [0.0]
LLM-Agent-UMF(LLM-Agent-UMF)に基づく新しいエージェント統一モデリングフレームワークを提案する。我々のフレームワークはLLMエージェントの異なるコンポーネントを区別し、LLMとツールを新しい要素であるコアエージェントから分離する。我々は,13の最先端エージェントに適用し,それらの機能との整合性を実証することによって,我々の枠組みを評価する。
論文参考訳（メタデータ） (2024-09-17T17:54:17Z)
Multi-Agent Reinforcement Learning for Microprocessor Design Space Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文参考訳（メタデータ） (2022-11-29T17:10:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。