論文の概要: Measuring Agents in Production
- arxiv url: http://arxiv.org/abs/2512.04123v1
- Date: Tue, 02 Dec 2025 16:45:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.798094
- Title: Measuring Agents in Production
- Title(参考訳): 生産エージェントの測定
- Authors: Melissa Z. Pan, Negar Arabzadeh, Riccardo Cogo, Yuxuan Zhu, Alexander Xiong, Lakshya A Agrawal, Huanzhi Mao, Emma Shen, Sid Pallerla, Liana Patel, Shu Liu, Tianneng Shi, Xiaoyuan Liu, Jared Quincy Davis, Emmanuele Lacavalla, Alessandro Basile, Shuyi Yang, Paul Castro, Daniel Kang, Joseph E. Gonzalez, Koushik Sen, Dawn Song, Ion Stoica, Matei Zaharia, Marquita Ellis,
- Abstract要約: 生産におけるAIエージェントの大規模体系的研究について紹介する。
プロダクションエージェントは通常、シンプルで制御可能なアプローチで構築されています。
信頼性は依然として最大の開発課題であり、エージェントの正しさの確保と評価の難しさによって推進されます。
- 参考スコア(独自算出の注目度): 133.77818981073457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI agents are actively running in production across diverse industries, yet little is publicly known about which technical approaches enable successful real-world deployments. We present the first large-scale systematic study of AI agents in production, surveying 306 practitioners and conducting 20 in-depth case studies via interviews across 26 domains. We investigate why organizations build agents, how they build them, how they evaluate them, and what the top development challenges are. We find that production agents are typically built using simple, controllable approaches: 68% execute at most 10 steps before requiring human intervention, 70% rely on prompting off-the-shelf models instead of weight tuning, and 74% depend primarily on human evaluation. Reliability remains the top development challenge, driven by difficulties in ensuring and evaluating agent correctness. Despite these challenges, simple yet effective methods already enable agents to deliver impact across diverse industries. Our study documents the current state of practice and bridges the gap between research and deployment by providing researchers visibility into production challenges while offering practitioners proven patterns from successful deployments.
- Abstract(参考訳): AIエージェントはさまざまな産業で活発に運用されているが、どの技術的アプローチが現実のデプロイメントを成功させるのかは公表されていない。
生産におけるAIエージェントの大規模研究、306人の実践者の調査、26ドメインにわたるインタビューによる20の詳細なケーススタディについて紹介する。
組織がエージェントを構築し、どのように構築し、どのように評価し、最高の開発課題は何であるかを調査する。
68%は人間の介入を必要とする前に少なくとも10ステップで実行し、70%は重量調整の代わりに市販のモデルを推進し、74%は人間の評価に依存しています。
信頼性は依然として最大の開発課題であり、エージェントの正しさの確保と評価の難しさによって推進されます。
これらの課題にもかかわらず、単純で効果的な方法により、エージェントは様々な産業に影響を及ぼすことができる。
本研究は、研究者が生産課題を可視化し、実践者が成功したデプロイメントから実証されたパターンを提供することによって、研究とデプロイメントのギャップを埋める、現在の状況について文書化している。
関連論文リスト
- AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite [75.58737079136942]
本稿では,AstaBenchについて紹介する。AstaBenchは,科学的研究を行うためのエージェント能力の総合的な測定を行うスイートである。
私たちのスイートには、プロダクショングレードの検索ツールを備えた、最初の科学研究環境が付属しています。
22のエージェントクラスで57のエージェントを評価したところ,いくつかの興味深い結果が得られた。
論文 参考訳(メタデータ) (2025-10-24T17:10:26Z) - An Empirical Study of Testing Practices in Open Source AI Agent Frameworks and Agentic Applications [12.166151903597445]
ファンデーションモデル(FM)ベースのAIエージェントは、さまざまなドメインで急速に採用されている。
その固有の非決定主義と非再現性は、テストと品質保証の課題を引き起こす。
AIエージェントエコシステムにおけるテストプラクティスの大規模な実証的研究を初めて実施する。
論文 参考訳(メタデータ) (2025-09-23T16:02:09Z) - LIMI: Less is More for Agency [49.63355240818081]
LIMI(Less Is More for Intelligent Agency)は、機関が根本的に異なる開発原則に従うことを示す。
高度なエージェント・インテリジェンスは、最小でも戦略的にキュレートされた自律行動のデモンストレーションから生まれる可能性がある。
マシンの自律性はデータの豊富さではなく、高品質なエージェント実証の戦略的キュレーションから生まれる。
論文 参考訳(メタデータ) (2025-09-22T10:59:32Z) - Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance [95.03771007780976]
我々は、人間の指示なしにタスクを予測および開始できるプロアクティブエージェントを開発するという課題に取り組む。
まず,実世界の人的活動を収集し,前向きなタスク予測を生成する。
これらの予測は、ヒトのアノテータによって受け入れられるか拒否されるかのどちらかとしてラベル付けされる。
ラベル付きデータは、人間の判断をシミュレートする報酬モデルをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-10-16T08:24:09Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。