論文の概要: APEX-Agents
- arxiv url: http://arxiv.org/abs/2601.14242v1
- Date: Tue, 20 Jan 2026 18:53:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.458088
- Title: APEX-Agents
- Title(参考訳): APEX-Agents
- Authors: Bertie Vidgen, Austin Mann, Abby Fennelly, John Wright Stanly, Lucas Rothman, Marco Burstein, Julien Benchek, David Ostrofsky, Anirudh Ravichandran, Debnil Sur, Neel Venugopal, Alannah Hsia, Isaac Robinson, Calix Huang, Olivia Varones, Daniyal Khan, Michael Haines, Zach Richards, Chirag Mahapatra, Brendan Foody, Osvald Nitski,
- Abstract要約: エージェントのためのAI生産性指数(APEX-Agents)は、AIエージェントが長期のクロスアプリケーションタスクを実行できるかどうかを評価するベンチマークである。
Gemini 3 Flash(Thinking=High)は24.0%、GPT-5.2(Thinking=High)、Claude Opus 4.5(Thinking=High)、Gemini 3 Pro(Thinking=High)が続く。
- 参考スコア(独自算出の注目度): 4.209210727546437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the AI Productivity Index for Agents (APEX-Agents), a benchmark for assessing whether AI agents can execute long-horizon, cross-application tasks created by investment banking analysts, management consultants, and corporate lawyers. APEX-Agents requires agents to navigate realistic work environments with files and tools. We test eight agents for the leaderboard using Pass@1. Gemini 3 Flash (Thinking=High) achieves the highest score of 24.0%, followed by GPT-5.2 (Thinking=High), Claude Opus 4.5 (Thinking=High), and Gemini 3 Pro (Thinking=High). We open source the APEX-Agents benchmark (n=480) with all prompts, rubrics, gold outputs, files, and metadata. We also open-source Archipelago, our infrastructure for agent execution and evaluation.
- Abstract(参考訳): 我々は,投資銀行アナリスト,経営コンサルタント,法人弁護士が作成した,長期的,アプリケーション横断的なタスクをAIエージェントが実行可能であるかどうかを評価するベンチマークであるAI Productivity Index for Agents(APEX-Agents)を紹介する。
APEX-Agentsではエージェントがファイルやツールを使って現実的な作業環境をナビゲートする必要がある。
Pass@1を使って、リーダーボードの8つのエージェントをテストする。
Gemini 3 Flash (Thinking=High)は最高スコアが24.0%、GPT-5.2 (Thinking=High)、Claude Opus 4.5 (Thinking=High)、Gemini 3 Pro (Thinking=High)が続く。
我々はAPEX-Agentsベンチマーク(n=480)をオープンソースにしました。
エージェントの実行と評価のためのインフラストラクチャであるArchipelagoもオープンソースで公開しています。
関連論文リスト
- Enterprise Deep Research: Steerable Multi-Agent Deep Research for Enterprise Analytics [75.4712507893024]
Enterprise Deep Research (EDR)は、適応的なクエリ分解のためのマスタープランニングエージェントを統合するマルチエージェントシステムである。
4つの専門的な検索エージェント(General, Academic, GitHub, LinkedIn)と、データ駆動インサイトのための可視化エージェントも含まれている。
EDRは、オプショナル・イン・ザ・ループ・ステアリング・ガイダンスによる研究の方向性を反映する。
論文 参考訳(メタデータ) (2025-10-20T17:55:11Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - The AI Productivity Index (APEX) [4.122962658725304]
我々は、フロンティアAIモデルが高い経済価値で知識労働を行うことができるかどうかを評価するベンチマークであるAI生産性指数(APEX)の最初のバージョンを紹介する。
APEX-v1.0は200のテストケースを含み、投資銀行、マネジメントコンサルティング、法律、プライマリ医療の4つの領域をカバーする。
GPT 5 (Thinking = High) は最高スコア (64.2%) を獲得し、Grok 4 (61.3%) と Gemini 2.5 Flash (Thinking = On) (60.4%) が続く。
論文 参考訳(メタデータ) (2025-09-30T03:26:17Z) - InfoAgent: Advancing Autonomous Information-Seeking Agents [143.15973604285304]
本稿では,革新的なデータ合成パイプラインとWeb検索ツールを駆使したディープリサーチエージェントInfoAgentを紹介する。
我々の方法では、InfoAgentはBrowseCompで15.3%、BrowseComp-ZHで29.2%、Xbench-DSで40.4%の精度を達成した。
論文 参考訳(メタデータ) (2025-09-29T17:59:57Z) - eSapiens: A Platform for Secure and Auditable Retrieval-Augmented Generation [10.667949307405983]
eSapiensはAI(AI)プラットフォームで、ビジネス指向のトリフェクタ(プロプライエタリなデータ、運用、主要な言語モデル(LLM))を中心に開発されている。
eSapiensは、企業がAI資産を完全にコントロールし、AI知識の保持とデータセキュリティのためのすべてを社内に保持する。
論文 参考訳(メタデータ) (2025-07-13T11:41:44Z) - R&D-Agent: An LLM-Agent Framework Towards Autonomous Data Science [70.1638335489284]
高レベルの機械学習エンジニアリングタスクは、労働集約的で反復的である。
機械学習プロセスを形式化する包括的で分離されたフレームワークであるR&D-Agentを紹介します。
R&D-AgentはMLEを2つのフェーズと6つのコンポーネントに定義し、MLEのエージェント設計を原則としてテスト可能なプロセスに変える。
論文 参考訳(メタデータ) (2025-05-20T06:07:00Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents [30.253353551910404]
コンピュータ利用エージェントは、コンピュータやモバイルデバイスのグラフィカルユーザインタフェース(GUI)と直接対話することで、デジタルタスクを自動化する。
本稿では,様々なジェネラリストおよびスペシャリストモデルにまたがって認知的責任を委譲する新しい構成フレームワークであるAgens S2を紹介する。
Agent S2は、3つの著名なコンピュータ使用ベンチマーク上でのSOTA(State-of-the-art)のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-04-01T15:40:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。