論文の概要: Can LLMs Help You at Work? A Sandbox for Evaluating LLM Agents in Enterprise Environments
- arxiv url: http://arxiv.org/abs/2510.27287v1
- Date: Fri, 31 Oct 2025 08:55:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.042904
- Title: Can LLMs Help You at Work? A Sandbox for Evaluating LLM Agents in Enterprise Environments
- Title(参考訳): LLMは仕事に役立つか? LLMエージェントを企業環境で評価するためのサンドボックス
- Authors: Harsh Vishwakarma, Ankush Agarwal, Ojas Patil, Chaitanya Devaguptapu, Mahesh Chandran,
- Abstract要約: エンタープライズ設定をシミュレートする包括的なベンチマークであるEnterpriseBenchを紹介します。
我々のベンチマークでは、データソースの断片化、アクセス制御階層、クロスファンクショナルドメインなど、主要なエンタープライズ特性を捉えています。
最先端のLLMエージェントによる実験では、最も有能なモデルでさえ41.8%のタスク完了しか達成していない。
- 参考スコア(独自算出の注目度): 7.078058156560979
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Enterprise systems are crucial for enhancing productivity and decision-making among employees and customers. Integrating LLM based systems into enterprise systems enables intelligent automation, personalized experiences, and efficient information retrieval, driving operational efficiency and strategic growth. However, developing and evaluating such systems is challenging due to the inherent complexity of enterprise environments, where data is fragmented across multiple sources and governed by sophisticated access controls. We present EnterpriseBench, a comprehensive benchmark that simulates enterprise settings, featuring 500 diverse tasks across software engineering, HR, finance, and administrative domains. Our benchmark uniquely captures key enterprise characteristics including data source fragmentation, access control hierarchies, and cross-functional workflows. Additionally, we provide a novel data generation pipeline that creates internally consistent enterprise tasks from organizational metadata. Experiments with state-of-the-art LLM agents demonstrate that even the most capable models achieve only 41.8% task completion, highlighting significant opportunities for improvement in enterprise-focused AI systems.
- Abstract(参考訳): 企業システムは、従業員と顧客の間で生産性と意思決定を向上させるために不可欠です。
LLMベースのシステムをエンタープライズシステムに統合することで、インテリジェントな自動化、パーソナライズされたエクスペリエンス、効率的な情報検索、運用効率の向上、戦略的成長が可能になる。
しかし、このようなシステムの開発と評価は、複数のソースにまたがってデータが断片化され、洗練されたアクセス制御によって管理される、エンタープライズ環境の固有の複雑さのために困難である。
エンタープライズ設定をシミュレートする包括的なベンチマークであるEnterpriseBenchを紹介します。
当社のベンチマークでは,データソースの断片化,アクセス制御階層,クロスファンクショナルワークフローなど,エンタープライズの特徴を独自に捉えています。
さらに、組織メタデータから内部的に一貫したエンタープライズタスクを生成する、新しいデータ生成パイプラインも提供します。
最先端のLLMエージェントによる実験では、最も有能なモデルでさえ41.8%のタスク完了しか達成せず、エンタープライズ指向のAIシステムで改善する大きな機会が浮かび上がっている。
関連論文リスト
- Toward Data Systems That Are Business Semantic Centric and AI Agents Assisted [0.0]
ビジネスSemantics Centric, AI Agents Assisted Data System (BSDS)
BSDSは、データシステムをビジネス成功の動的な実現手段として再定義する。
システムには、ビジネスエンティティにリンクされたキュレートされたデータ、コンテキスト認識AIエージェントの知識ベース、効率的なデータパイプラインが含まれる。
論文 参考訳(メタデータ) (2025-06-05T19:06:06Z) - LLM-Powered AI Agent Systems and Their Applications in Industry [3.103098467546532]
LLM(Large Language Models)はエージェントシステムである。
タスクスコープが制限された従来のルールベースのエージェントとは異なり、LLMベースのエージェントはより柔軟性、ドメイン間の推論、自然言語の相互作用を提供する。
論文 参考訳(メタデータ) (2025-05-22T01:52:15Z) - CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments [90.29937153770835]
CRMArenaは、プロフェッショナルな作業環境に根ざした現実的なタスクにおいて、AIエージェントを評価するために設計されたベンチマークである。
現状のLDMエージェントはReActプロンプトのタスクの40%以下で成功し,機能呼び出し能力でも55%以下であった。
この結果から,実環境に展開する関数呼び出しやルールフォローにおいて,エージェント機能の向上の必要性が示唆された。
論文 参考訳(メタデータ) (2024-11-04T17:30:51Z) - Evaluating the Efficacy of Open-Source LLMs in Enterprise-Specific RAG Systems: A Comparative Study of Performance and Scalability [0.0]
本稿では,オープンソースの大規模言語モデル(LLM)とその検索・拡張生成(RAG)タスクへの応用について述べる。
この結果から,オープンソースのLCMと効果的な埋め込み技術が組み合わさって,RAGシステムの精度と効率を大幅に向上させることが示唆された。
論文 参考訳(メタデータ) (2024-06-17T11:22:25Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - Personal LLM Agents: Insights and Survey about the Capability, Efficiency and Security [34.67477557318947]
我々は、個人データやパーソナルデバイスと深く統合されたLLMベースのエージェントであるPersonal LLM Agentsに焦点を当てる。
我々は、パーソナライズ LLM Agents が、今後エンドユーザーにとって主要なソフトウェアパラダイムになることを期待している。
論文 参考訳(メタデータ) (2024-01-10T09:25:45Z) - AgentBench: Evaluating LLMs as Agents [99.12825098528212]
エージェントとしてのLarge Language Model (LLM)は近年広く認知されている。
我々は,LLM-as-Agentの推論と意思決定能力を評価するために,8つの異なる環境からなるベンチマークであるAgentBenchを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。