論文の概要: From Benchmarks to Business Impact: Deploying IBM Generalist Agent in Enterprise Production
- arxiv url: http://arxiv.org/abs/2510.23856v1
- Date: Mon, 27 Oct 2025 20:55:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.516257
- Title: From Benchmarks to Business Impact: Deploying IBM Generalist Agent in Enterprise Production
- Title(参考訳): ベンチマークからビジネスインパクトへ - IBM Generalist Agentをエンタープライズプロダクションに展開
- Authors: Segev Shlomov, Alon Oved, Sami Marreed, Ido Levy, Offer Akrabi, Avi Yaeli, Łukasz Strąk, Elizabeth Koumpan, Yinon Goldshtein, Eilam Shapira, Nir Mashkif, Asaf Adi,
- Abstract要約: 本稿では,汎用エージェント(CUGA)を用いたコンピュータの開発と試験経験について報告する。
CUGAは階層的なプランナー-実行アーキテクチャを採用し、強力な分析基盤を備えている。
それは、Business-Process-Outsourcing talent acquisition domainのパイロットとして評価された。
- 参考スコア(独自算出の注目度): 6.189323683437766
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Agents are rapidly advancing in automating digital work, but enterprises face a harder challenge: moving beyond prototypes to deployed systems that deliver measurable business value. This path is complicated by fragmented frameworks, slow development, and the absence of standardized evaluation practices. Generalist agents have emerged as a promising direction, excelling on academic benchmarks and offering flexibility across task types, applications, and modalities. Yet, evidence of their use in production enterprise settings remains limited. This paper reports IBM's experience developing and piloting the Computer Using Generalist Agent (CUGA), which has been open-sourced for the community (https://github.com/cuga-project/cuga-agent). CUGA adopts a hierarchical planner--executor architecture with strong analytical foundations, achieving state-of-the-art performance on AppWorld and WebArena. Beyond benchmarks, it was evaluated in a pilot within the Business-Process-Outsourcing talent acquisition domain, addressing enterprise requirements for scalability, auditability, safety, and governance. To support assessment, we introduce BPO-TA, a 26-task benchmark spanning 13 analytics endpoints. In preliminary evaluations, CUGA approached the accuracy of specialized agents while indicating potential for reducing development time and cost. Our contribution is twofold: presenting early evidence of generalist agents operating at enterprise scale, and distilling technical and organizational lessons from this initial pilot. We outline requirements and next steps for advancing research-grade architectures like CUGA into robust, enterprise-ready systems.
- Abstract(参考訳): エージェントはデジタルワークの自動化において急速に進歩していますが、企業は、プロトタイプを超えて、測定可能なビジネス価値を提供するデプロイシステムに移行するという、難しい課題に直面しています。
このパスは、断片化されたフレームワーク、遅い開発、標準化された評価プラクティスの欠如によって複雑である。
ジェネラリストエージェントは有望な方向性として現れ、学術ベンチマークに優れ、タスクタイプ、アプリケーション、モダリティにまたがる柔軟性を提供する。
しかし、プロダクションエンタープライズ環境での使用の証拠は依然として限られている。
本稿は、IBMが一般エージェント(CUGA)をオープンソースとして公開した経験を報告する(https://github.com/cuga-project/cuga-agent)。
CUGAは階層的なプランナー-実行アーキテクチャを採用し、強力な分析基盤を持ち、AppWorldとWebArenaで最先端のパフォーマンスを実現している。
ベンチマーク以外にも、Business-Process-Outsourceの人材獲得ドメインのパイロットとして評価され、スケーラビリティ、監査可能性、安全性、ガバナンスに関するエンタープライズ要件に対処した。
評価を支援するため、26タスクのベンチマークであるBPO-TAを13の分析エンドポイントに導入する。
予備評価では、CUGAは、開発時間とコストを削減できる可能性を示しながら、特殊エージェントの精度にアプローチした。
私たちの貢献は2つあります – 企業規模で運用されているジェネラリストエージェントの初期の証拠を示し、この最初のパイロットから技術的および組織的な教訓を抽出することです。
CUGAのような研究レベルのアーキテクチャを堅牢でエンタープライズ対応のシステムに進化させるための要件と次のステップを概説する。
関連論文リスト
- Alita-G: Self-Evolving Generative Agent for Agent Generation [54.49365835457433]
汎用エージェントをドメインエキスパートに変換するフレームワークであるALITA-Gを提案する。
このフレームワークでは、ジェネラリストエージェントが対象ドメインタスクのキュレートされたスイートを実行する。
計算コストを削減しながら、大きな利益を得ることができます。
論文 参考訳(メタデータ) (2025-10-27T17:59:14Z) - A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [56.40989626804489]
この調査は、Large Language Modelsを使ったソフトウェアエンジニアリングに関する、最初の総合的な分析を提供する。
本稿では,150以上の最近の論文をレビューし,(1)素早い,微調整,エージェントベースのパラダイムに分類した解法,(2)コード生成,翻訳,修復などのタスクを含むベンチマークという2つの重要な側面に沿った分類法を提案する。
論文 参考訳(メタデータ) (2025-10-10T06:56:50Z) - Shell or Nothing: Real-World Benchmarks and Memory-Activated Agents for Automated Penetration Testing [23.554239007767276]
本稿では,世界初の実世界のエージェント指向ペンテストベンチマークTermiBenchを紹介する。
本稿では,多エージェント浸透試験フレームワークTermiAgentを提案する。
評価において,本研究は最先端のエージェントより優れ,より強力な浸透試験能力を示す。
論文 参考訳(メタデータ) (2025-09-11T07:30:44Z) - OpenCUA: Open Foundations for Computer-Use Agents [74.61449905487565]
コンピュータ・ユース・エージェント(CUA)としての視覚言語モデル
我々は,CUAデータと基盤モデルをスケールするためのオープンソースフレームワークであるOpenCUAを提案する。
我々のエンドツーエンドエージェントモデルはCUAベンチマークで強い性能を示す。
論文 参考訳(メタデータ) (2025-08-12T17:52:32Z) - InternBootcamp Technical Report: Boosting LLM Reasoning with Verifiable Task Scaling [71.37579508777843]
大規模言語モデル(LLM)は、複雑な推論機能を実現することによって、人工知能に革命をもたらした。
このギャップに対処するため、1000以上のドメイン分散タスク環境からなるオープンソースのフレームワークであるInternBootcampを紹介します。
論文 参考訳(メタデータ) (2025-08-12T05:00:00Z) - OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use [101.57043903478257]
アイアンマンの架空のJ.A.R.V.I.Sほど有能で多用途なAIアシスタントを作る夢は、長い間想像力に恵まれてきた。
マルチモーダル(multi-modal)な大きな言語モデル((M)LLMs)の進化により、この夢は現実に近づいている。
本調査は,OSエージェント研究の現状を整理し,学術調査と産業開発の両方の指針を提供する。
論文 参考訳(メタデータ) (2025-08-06T14:33:45Z) - Towards Enterprise-Ready Computer Using Generalist Agent [2.7426201283942766]
本稿では,企業用汎用エージェントシステム(CUGA)の開発に向けて,現在進行中の取り組みについて述べる。
最先端のエージェントAI技術と、反復的評価、分析、改善のための体系的なアプローチを統合することで、我々は、迅速かつ費用対効果の高いパフォーマンス向上を実現した。
論文 参考訳(メタデータ) (2025-02-24T09:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。