論文の概要: APEX-SWE
- arxiv url: http://arxiv.org/abs/2601.08806v1
- Date: Tue, 13 Jan 2026 18:44:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.329687
- Title: APEX-SWE
- Title(参考訳): APEX-SWE
- Authors: Abhi Kottamasu, Akul Datta, Aakash Barthwal, Chirag Mahapatra, Ajay Arun, Adarsh Hiremath, Brendan Foody, Bertie Vidgen,
- Abstract要約: AI Productivity Index for Software Engineering (APEX-SWE)を紹介する。
APEX-SWEは、フロンティアAIモデルが経済的に価値のあるソフトウェアエンジニアリング作業を実行できるかどうかを評価するためのベンチマークである。
Gemini 3 Pro(Thinking = High)は、Pass@1スコアが25%である。
- 参考スコア(独自算出の注目度): 4.927317067589892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the AI Productivity Index for Software Engineering (APEX-SWE), a benchmark for assessing whether frontier AI models can execute economically valuable software engineering work. Unlike existing evaluations that focus on narrow, well-defined tasks, APEX-SWE assesses two novel task types that reflect real-world software engineering work: (1) Integration tasks (n=100), which require constructing end-to-end systems across heterogeneous cloud primitives, business applications, and infrastructure-as-code services, and (2) Observability tasks (n=100), which require debugging production failures using telemetry signals such as logs and dashboards, as well as unstructured context. We evaluated eight frontier models on APEX-SWE. Gemini 3 Pro (Thinking = High) performs best, with a Pass@1 score of 25\%. Our analysis shows that strong performance is primarily driven by epistemic reasoning, defined as the ability to distinguish between assumptions and verified facts, combined with agency to resolve uncertainty prior to acting. We open-source the APEX-SWE evaluation harness and a dev set (n=50).
- Abstract(参考訳): 我々は、フロンティアAIモデルが経済的に価値のあるソフトウェアエンジニアリング作業を実行できるかどうかを評価するベンチマークであるAI Productivity Index for Software Engineering (APEX-SWE)を紹介する。
1つの統合タスク(n=100)は、異種クラウドプリミティブ、ビジネスアプリケーション、インフラストラクチャ・アズ・コードサービスにわたるエンド・ツー・エンドのシステムを構築すること、2)ログやダッシュボードなどのテレメトリ信号を使ったプロダクション障害のデバッグを必要とする可観測性タスク(n=100)は非構造化コンテキストである。
我々はAPEX-SWEで8つのフロンティアモデルを評価した。
Gemini 3 Pro(Thinking = High)は、Pass@1スコアが25\%である。
本分析は, 仮説と検証された事実を区別する能力として定義され, 行動前に不確実性を解決する要因と組み合わせられた, 認識論的推論によって強いパフォーマンスが引き起こされることを示す。
我々はAPEX-SWE評価ハーネスと開発セット(n=50)をオープンソース化した。
関連論文リスト
- LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - Benchmarking and Studying the LLM-based Agent System in End-to-End Software Development [33.01897134024342]
エンドツーエンドソフトウェア開発のためのLLMベースの自律エージェントの開発は、ソフトウェア工学における重要なパラダイムシフトである。
この作業はコミュニティに、より現実的なベンチマーク、包括的な評価フレームワーク、そしてソフトウェア開発エージェントの現在の能力とコア課題に対する重要な洞察を提供する。
論文 参考訳(メタデータ) (2025-11-06T05:10:04Z) - From Benchmarks to Business Impact: Deploying IBM Generalist Agent in Enterprise Production [6.189323683437766]
本稿では,汎用エージェント(CUGA)を用いたコンピュータの開発と試験経験について報告する。
CUGAは階層的なプランナー-実行アーキテクチャを採用し、強力な分析基盤を備えている。
それは、Business-Process-Outsourcing talent acquisition domainのパイロットとして評価された。
論文 参考訳(メタデータ) (2025-10-27T20:55:00Z) - EmbodiedBrain: Expanding Performance Boundaries of Task Planning for Embodied Intelligence [17.644658293987955]
身体的AIエージェントは、物理的環境における堅牢な空間認識、効果的なタスク計画、適応実行を行うことができる。
現在の大規模言語モデル (LLMs) とマルチモーダルLLM (MLLMs) の具体化タスクは、重要な制約に悩まされている。
EmbodiedBrain は 7B と 32B のパラメータサイズで利用できる新しい視覚言語基盤モデルである。
論文 参考訳(メタデータ) (2025-10-23T14:05:55Z) - xOffense: An AI-driven autonomous penetration testing framework with offensive knowledge-enhanced LLMs and multi agent systems [0.402058998065435]
xOffenseはAI駆動のマルチエージェント浸透テストフレームワークである。
プロセスは、労働集約的で専門家主導のマニュアル作業から、完全に自動化され、マシン実行可能なスケーリングへと、計算インフラストラクチャとシームレスに移行します。
論文 参考訳(メタデータ) (2025-09-16T12:45:45Z) - InternBootcamp Technical Report: Boosting LLM Reasoning with Verifiable Task Scaling [71.37579508777843]
大規模言語モデル(LLM)は、複雑な推論機能を実現することによって、人工知能に革命をもたらした。
このギャップに対処するため、1000以上のドメイン分散タスク環境からなるオープンソースのフレームワークであるInternBootcampを紹介します。
論文 参考訳(メタデータ) (2025-08-12T05:00:00Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。