論文の概要: AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?
- arxiv url: http://arxiv.org/abs/2606.05080v1
- Date: Wed, 03 Jun 2026 16:36:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.901962
- Title: AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?
- Title(参考訳): AutoLab:フロンティアモデルは、長期の自動車研究とエンジニアリングの課題を解決できるか?
- Authors: Zhangchen Xu, Junda Chen, Yue Huang, Dongfu Jiang, Jiefeng Chen, Hang Hua, Zijian Wu, Zheyuan Liu, Zexue He, Lichi Li, Shizhe Diao, Jiaxin Pei, Jinsung Yoon, Hao Zhang, Mengdi Wang, Radha Poovendran, Misha Sra, Alex Pentland, Zichen Chen,
- Abstract要約: 我々は超長距離閉ループ最適化のための新しいベンチマークであるAutoLabを紹介する。
AutoLabは4つの異なるドメインにまたがる36の現実的で専門家によるタスクで構成されている。
我々は、真に有能な長距離エージェントに向けた研究を加速するために、全ベンチマーク、評価ハーネス、タスクアーティファクトをオープンソース化する。
- 参考スコア(独自算出の注目度): 84.49732367417067
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Scientific and engineering progress is fundamentally a long-horizon iterative process: proposing changes, running experiments, measuring outcomes, and continuously refining artifacts. Yet existing benchmarks for frontier models primarily evaluate either single-turn responses or short-horizon agent trajectories, failing to capture the challenges of sustained iterative improvement over extended time horizons. To address this gap, we introduce AutoLab, a new benchmark for ultra long-horizon closed-loop optimization. AutoLab consists of 36 realistic, expert-curated tasks spanning four diverse domains: system optimization, puzzle & challenge, model development, and CUDA kernel optimization. Each task begins with a correct but deliberately suboptimal baseline and challenges agents to improve it within a strict wall-clock budget. Evaluating 17 state-of-the-art models reveals the dominant predictor of success is not the quality of an agent's initial attempt, but its persistence in repeatedly benchmarking, editing, and incorporating empirical feedback. While claude-opus-4.6 exhibits strong long-horizon optimization capabilities, most frontier models, including several proprietary ones, either terminate prematurely or exhaust their budgets with minimal progress. These results underscore the importance of time awareness and persistent iteration in autonomous agents. We open-source the full benchmark, evaluation harness, and task artifacts, to accelerate research toward truly capable long-horizon agents.
- Abstract(参考訳): 科学と工学の進歩は基本的に、変化の提案、実験の実行、成果の測定、成果の継続的な精錬という、長期にわたる反復的なプロセスである。
しかし、フロンティアモデルの既存のベンチマークは、主にシングルターン応答またはショートホライゾンエージェントトラジェクトリを評価し、拡張された時間的地平線に対する継続的な反復的改善の課題を捉えられなかった。
このギャップに対処するために,超長距離閉ループ最適化のための新しいベンチマークであるAutoLabを導入する。
AutoLabは,システム最適化,パズル&チャレンジ,モデル開発,CUDAカーネル最適化という,4つの領域にまたがる,現実的で専門家による36のタスクで構成されている。
各タスクは、正しいが故意に最適なベースラインから始まり、厳格なウォールタイム予算でそれを改善するようエージェントに挑戦する。
17の最先端モデルを評価すると、成功の予測はエージェントの最初の試みの品質ではなく、繰り返しベンチマーク、編集、経験的フィードバックの導入における持続性であることがわかる。
クロードオプス-4.6は強力な長距離最適化能力を示すが、いくつかのプロプライエタリなモデルを含むほとんどのフロンティアモデルは早めに終了するか、最小限の進歩で予算を消費する。
これらの結果は、自律エージェントにおける時間意識と持続的な反復の重要性を浮き彫りにする。
我々は、真に有能な長距離エージェントに向けた研究を加速するために、全ベンチマーク、評価ハーネス、タスクアーティファクトをオープンソース化する。
関連論文リスト
- Toward Autonomous Long-Horizon Engineering for ML Research [89.63005598358639]
AiScientistは、シンプルな原理に基づいて構築されたML研究のための自律的な長距離エンジニアリングシステムである。
AiScientistは階層的なオーケストレーションとパーミッションスコープのFile-as-Busワークスペースを組み合わせる。
論文 参考訳(メタデータ) (2026-04-14T17:55:16Z) - Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization [16.92885982726064]
生成最適化のための人間検証ベンチマークであるFrontier-Engを紹介する。
以前のスイートとは異なり、Frontier-Engタスクは工業用シミュレータと検証器に基礎を置いている。
代表的な検索フレームワークを用いて,8つのフロンティア言語モデルを評価する。
論文 参考訳(メタデータ) (2026-04-14T05:02:06Z) - The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break [69.91172974854422]
HORIZONは、大規模言語モデル(LLM)エージェントの長期障害挙動を解析するためのクロスドメイン診断ベンチマークである。
我々は,複数のモデルファミリーのSOTA(State-of-the-art)エージェントを評価し,水平方向依存劣化パターンについて検討した。
本研究は, 長期薬物障害の系統的, クロスドメイン解析への最初の方法論的ステップを提供する。
論文 参考訳(メタデータ) (2026-04-13T19:11:42Z) - AutoSOTA: An End-to-End Automated Research System for State-of-the-Art AI Model Discovery [49.77172027295716]
AutoSOTAは、トップレベルのAI論文で発表された最新のState-Of-The-Art(SOTA)モデルを進化させるエンドツーエンドの自動研究システムである。
報告された方法を超える新しい105種類のSOTAモデルを発見し、平均して1紙あたり平均5時間である。
論文 参考訳(メタデータ) (2026-04-07T07:52:01Z) - LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces [65.11019654023978]
LongCLI-Benchは、長期にわたる現実的なタスクにまたがるエージェント能力を評価するために設計されたベンチマークである。
私たちは、1000以上のコンピュータサイエンスの課題と現実世界のタスクから、20の高品質で長い水平タスクをキュレートしました。
実験によると、最先端のエージェントでさえLongCLI-Benchの20%未満のパスレートを達成する。
論文 参考訳(メタデータ) (2026-02-15T23:12:57Z) - Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering [59.18634614089481]
超長距離機械学習工学(MLE)を習得する自律エージェントML-Master 2.0を提案する。
文脈管理を認知的蓄積のプロセスとして考えることで、階層的認知キャッシング(HCC)を導入する。
HCCは、エージェントが短期的な実験戦略から即時実行を分離することを可能にする。
オープンAIのMLE-Benchを24時間予算で評価すると、ML-Master 2.0は56.44%の最先端のメダルを獲得した。
論文 参考訳(メタデータ) (2026-01-15T13:52:04Z) - InnovatorBench: Evaluating Agents' Ability to Conduct Innovative LLM Research [36.46396692622759]
InnovatorBenchは、LLM(Large Language Model)研究を行うエージェントの現実的なエンドツーエンド評価のためのベンチマークプラットフォームである。
データ・コンストラクション、フィルタリング、拡張、ロス・デザイン、リワード・デザイン、スカフォード・コンストラクションにまたがる20のタスクで構成されている。
我々はまた、リッチなアクションスペース、分散された長期実行、非同期監視、スナップショット保存を提供するResearchGymの開発も行っている。
論文 参考訳(メタデータ) (2025-10-31T16:22:23Z) - ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering [5.248435832744057]
ALE-Benchは、スコアベースのアルゴリズムプログラミングコンテストでAIシステムを評価するための新しいベンチマークである。
ALE-Bench は計算的に困難であり、正確な解は認めない最適化問題を提示する。
私たちのソフトウェアフレームワークは、テスト実行フィードバックと視覚化を活用する対話型エージェントアーキテクチャをサポートしています。
論文 参考訳(メタデータ) (2025-06-10T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。