論文の概要: Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization
- arxiv url: http://arxiv.org/abs/2604.12290v1
- Date: Tue, 14 Apr 2026 05:02:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.250942
- Title: Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization
- Title(参考訳): Frontier-Eng: 生成最適化による実世界のエンジニアリングタスクにおける自己進化エージェントのベンチマーク
- Authors: Yizhe Chi, Deyao Hong, Dapeng Jiang, Tianwei Luo, Kaisen Yang, Boshi Zhang, Zhe Cao, Xiaoyan Fan, Bingxiang He, Han Hao, Weiyang Jin, Dianqiao Lei, Qingle Liu, Houde Qian, Bowen Wang, Situ Wang, Youjie Zheng, Yifan Zhou, Calvin Xiao, Eren Cai, Qinhuai Na,
- Abstract要約: 生成最適化のための人間検証ベンチマークであるFrontier-Engを紹介する。
以前のスイートとは異なり、Frontier-Engタスクは工業用シミュレータと検証器に基礎を置いている。
代表的な検索フレームワークを用いて,8つのフロンティア言語モデルを評価する。
- 参考スコア(独自算出の注目度): 16.92885982726064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current LLM agent benchmarks, which predominantly focus on binary pass/fail tasks such as code generation or search-based question answering, often neglect the value of real-world engineering that is often captured through the iterative optimization of feasible designs. To this end, we introduce Frontier-Eng, a human-verified benchmark for generative optimization -- an iterative propose-execute-evaluate loop in which an agent generates candidate artifacts, receives executable verifier feedback, and revises them under a fixed interaction budget -- spanning $47$ tasks across five broad engineering categories. Unlike previous suites, Frontier-Eng tasks are grounded in industrial-grade simulators and verifiers that provide continuous reward signals and enforce hard feasibility constraints under constrained budgets. We evaluate eight frontier language models using representative search frameworks, finding that while Claude 4.6 Opus achieves the most robust performance, the benchmark remains challenging for all models. Our analysis suggests a dual power-law decay in improvement frequency ($\sim$ 1/iteration) and magnitude ($\sim$ 1/improvement count). We further show that although width improves parallelism and diversity, depth remains crucial for hard-won improvements under a fixed budget. Frontier-Eng establishes a new standard for assessing the capacity of AI agents to integrate domain knowledge with executable feedback to solve complex, open-ended engineering problems.
- Abstract(参考訳): 現在のLLMエージェントベンチマークは、コード生成や検索ベースの質問応答といったバイナリパス/フェイルタスクに重点を置いているが、現実のエンジニアリングの価値を無視することが多い。
この目的のために、Frontier-Engは、生成最適化のための人間検証されたベンチマークである -- エージェントが候補アーティファクトを生成し、実行可能な検証者フィードバックを受け取り、それらを固定的なインタラクション予算の下で修正する反復的な提案実行評価ループ -- を5つの幅広いエンジニアリングカテゴリで47ドルのタスクにまたがる。
以前のスイートとは異なり、Frontier-Engタスクは産業レベルのシミュレータと検証器に基礎を置いており、連続的な報酬信号を提供し、制約された予算の下でハードファシビリティ制約を強制する。
代表的検索フレームワークを用いて8つのフロンティア言語モデルを評価し、Claude 4.6 Opusが最も堅牢なパフォーマンスを実現しているのに対して、ベンチマークは依然としてすべてのモデルで難しい。
我々の分析は、改善周波数(\sim$ 1/iteration)とマグニチュード(\sim$ 1/improvement count)の二重パワーロー崩壊を示唆している。
さらに、幅は並列性と多様性を向上するが、固定予算下でのハードウォンの改善には深さが不可欠であることを示す。
Frontier-Engは、複雑なオープンエンドエンジニアリング問題を解決するために、ドメイン知識と実行可能なフィードバックを統合するAIエージェントの能力を評価するための新しい標準を確立している。
関連論文リスト
- OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models [57.505743202759646]
OccuBenchは10の業界カテゴリと65の専門ドメインにわたる100の現実のプロフェッショナルタスクシナリオをカバーするベンチマークである。
我々のマルチエージェント合成パイプラインは, 可溶性, 校正困難, 文書基底の多様性を保証した評価インスタンスを自動生成する。
論文 参考訳(メタデータ) (2026-04-13T00:27:32Z) - KARL: Knowledge Agents via Reinforcement Learning [63.627906947205624]
本稿では,強化学習による企業検索エージェントの訓練システムを提案する。
KARLBenchは、6つの異なる検索レギュレーションにまたがる多機能評価スイートである。
異種探索行動で訓練されたモデルは、どのベンチマークにも最適化されたモデルよりもかなりよく一般化されていることを示す。
論文 参考訳(メタデータ) (2026-03-05T14:30:25Z) - BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing? [61.247730037229815]
BeyondSWEは2つの軸 – 解像度スコープと知識スコープ – に沿って既存の評価を拡張する包括的なベンチマークです。
外部知識の役割を解明するために,ディープ検索とコーディング能力を統合するフレームワークであるSearchSWEを開発した。
この作業は、現実的で挑戦的な評価ベンチマークと、より有能なコードエージェントに向けた研究を進めるための柔軟なフレームワークの両方を提供する。
論文 参考訳(メタデータ) (2026-03-03T17:52:01Z) - EmboCoach-Bench: Benchmarking AI Agents on Developing Embodied Robots [68.29056647487519]
Embodied AIは、高忠実度シミュレーションと大規模データ収集によって実現されている。
しかし、このスケーリング能力は、労働集約的な手作業の監視に依存しているため、いまだにボトルネックになっている。
実装ポリシーを自律的に構築するための LLM エージェントの能力を評価するベンチマークである textscEmboCoach-Bench を紹介する。
論文 参考訳(メタデータ) (2026-01-29T11:33:49Z) - OPT-Engine: Benchmarking the Limits of LLMs in Optimization Modeling via Complexity Scaling [13.57588221678224]
大規模言語モデル(LLM)は、最適化モデリングの驚くべき進歩を示している。
自動定式化と問題解決におけるそれらの能力の境界は、まだよく理解されていない。
OPT-ENGINEは、制御可能でスケーラブルな難易度を持つ最適化モデルにおいて、LCMを評価するために設計されたベンチマークフレームワークである。
論文 参考訳(メタデータ) (2026-01-09T09:22:33Z) - Benchmarking Generative AI Against Bayesian Optimization for Constrained Multi-Objective Inverse Design [0.15293427903448018]
本稿では,制約付き多目的回帰タスクを解くための生成可能な言語モデル(LLM)の性能について検討する。
最高の性能のLDM(Math-7B)は1.21の世代距離(GD)を達成した。
この知見は, 樹脂, レオロジー, 化学特性の定式化設計の最適化に, 直接工業的応用が期待できる。
論文 参考訳(メタデータ) (2025-10-29T10:37:09Z) - NatureGAIA: Pushing the Frontiers of GUI Agents with a Challenging Benchmark and High-Quality Trajectory Dataset [16.676904484703]
本稿ではCausal Pathwaysの原理に基づく新しいベンチマークであるNaturalGAIAを紹介する。
このパラダイムは複雑なタスクを検証可能な一連の原子ステップに構造化し、厳密で完全に自動化され、再現可能な評価基準を保証する。
次に、このデータセットを用いて、Q2.5-VL-7Bモデル上でReinforcement FineTuning(RFT)を行う。
論文 参考訳(メタデータ) (2025-08-02T11:53:41Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。