論文の概要: $\texttt{YC-Bench}$: Benchmarking AI Agents for Long-Term Planning and Consistent Execution
- arxiv url: http://arxiv.org/abs/2604.01212v1
- Date: Wed, 01 Apr 2026 17:52:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.134281
- Title: $\texttt{YC-Bench}$: Benchmarking AI Agents for Long-Term Planning and Consistent Execution
- Title(参考訳): $\texttt{YC-Bench}$: 長期計画と一貫性実行のためのAIエージェントのベンチマーク
- Authors: Muyu He, Adit Jain, Anand Kumar, Vincent Tu, Soumyadeep Bakshi, Sachin Patro, Nazneen Rajani,
- Abstract要約: このベンチマークは、エージェントがシミュレーションされたスタートアップを数百のターンにまたがる1年間の地平線上で実行することで、能力を評価する。
プロプライエタリとオープンソースの両方で、それぞれ3つのシードに対して12のモデルを評価します。
クレード・オプス4.6は1.27Mで平均的なファイナルファンドを達成し、GLM-5は1.21Mで11$times$低い推論コストを達成した。
- 参考スコア(独自算出の注目度): 38.30265058791818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLM agents tackle increasingly complex tasks, a critical question is whether they can maintain strategic coherence over long horizons: planning under uncertainty, learning from delayed feedback, and adapting when early mistakes compound. We introduce $\texttt{YC-Bench}$, a benchmark that evaluates these capabilities by tasking an agent with running a simulated startup over a one-year horizon spanning hundreds of turns. The agent must manage employees, select task contracts, and maintain profitability in a partially observable environment where adversarial clients and growing payroll create compounding consequences for poor decisions. We evaluate 12 models, both proprietary and open source, across 3 seeds each. Only three models consistently surpass the starting capital of \$200K, with Claude Opus 4.6 achieving the highest average final funds at \$1.27 M, followed by GLM-5 at \$1.21 M at 11$\times$ lower inference cost. Scratchpad usage, the sole mechanism for persisting information across context truncation, is the strongest predictor of success, and adversarial client detection is the primary failure mode, accounting for $47\%$ of bankruptcies. Our analysis reveals that frontier models still fail through distinct failure modes such as over-parallelization, demonstrating the capability gaps for long-horizon performance. $\texttt{YC-Bench}$ is open-source, reproducible, and configurable.
- Abstract(参考訳): LLMエージェントがますます複雑なタスクに取り組む中で、重要な疑問は、不確実性の下での計画、遅延したフィードバックからの学習、初期のミスが複雑になるときの適応といった、長期にわたる戦略的一貫性を維持することができるかどうかである。
このベンチマークは、エージェントがシミュレーションされたスタートアップを数百のターンにまたがる1年間の地平線上で実行することで、これらの機能を評価する。
エージェントは、従業員を管理し、タスク契約を選択し、部分的に監視可能な環境で利益を維持する必要がある。
プロプライエタリとオープンソースの両方で、それぞれ3つのシードに対して12のモデルを評価します。
3つのモデルのみが200Kを一貫して上回り、クロード・オプス4.6は1.27Mで最高水準のファイナルファンドを達成し、GLM-5は1.21Mで11$\times$低い推論コストを達成した。
Scratchpadの使用は、コンテキストトランケーション全体にわたって情報を永続化するための唯一のメカニズムであり、成功の最も強力な予測要因であり、敵クライアント検出が主要な障害モードであり、倒産の47ドル%の費用を計上している。
我々の分析によると、フロンティアモデルはオーバーパラレル化など、相変わらず異なる障害モードで失敗し、長軸性能の能力ギャップを実証している。
$\texttt{YC-Bench}$はオープンソースであり、再現可能で、設定可能である。
関連論文リスト
- The Bureaucracy of Speed: Structural Equivalence Between Memory Consistency Models and Multi-Agent Authorization Revocation [0.0]
我々はアイデンティティとアクセス管理のための能力コヒーレンスシステムを開発した。
安全定理は、実行カウント リリース 一貫性指向のコヒーレンス戦略に対する無許可の操作を束縛する。
ティックベースの離散イベントシミュレーションは、機能ごとの安全性を保証する。
論文 参考訳(メタデータ) (2026-03-10T16:37:02Z) - Capable but Unreliable: Canonical Path Deviation as a Causal Mechanism of Agent Failure in Long-Horizon Tasks [0.38991526486631006]
信頼性障害の多くは、タスクの潜在解構造からのドリフトに起因するものであり、能力障害ではない、と我々は主張する。
我々は、モデル能力と作業難易度を維持できる自然実験を用いて、これを因果的に確立する。
論文 参考訳(メタデータ) (2026-02-22T02:37:57Z) - MagicAgent: Towards Generalized Agent Planning [73.21129030631421]
汎用エージェント計画に特化して設計された基盤モデルである textbfMagicAgent について述べる。
多様な計画タスクにまたがる高品質なトラジェクトリを生成する軽量でスケーラブルな合成データフレームワークを提案する。
MagicAgent-32B と MagicAgent-30B-A3B は様々なオープンソースベンチマークにおいて優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2026-02-22T01:39:16Z) - Phase Transition for Budgeted Multi-Agent Synergy [41.486076708302456]
マルチエージェントシステムは信頼性を向上させることができるが、固定された推論予算の下では、しばしば役立つか、飽和するか、崩壊するかさえある。
我々は、現代のエージェントスタックの3つの束縛制約からこれらの状態を予測する最小限の校正可能な理論を開発する。
論文 参考訳(メタデータ) (2026-01-24T05:32:50Z) - ReliabilityBench: Evaluating LLM Agent Reliability Under Production-Like Stress Conditions [0.32928123659012326]
ツールを使用するLLMエージェントの既存のベンチマークでは、主に単一実行の成功率を報告し、運用に必要な信頼性特性を見逃している。
エージェントの信頼性を3次元にわたって評価するベンチマークである textbfReliabilityBench を紹介する。
我々は2つのモデル(Gemini 2.0 Flash, GPT-4o)と2つのエージェントアーキテクチャ(ReAct, Reflexion)を1,280回にわたって4つのドメイン(スケジューリング、旅行、カスタマーサポート、eコマース)で評価した。
論文 参考訳(メタデータ) (2026-01-03T13:41:33Z) - MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use [27.978435634514128]
MCPMarkは、より現実的で包括的な方法でMPPの使用を評価するために設計されたベンチマークである。
ドメインの専門家とAIエージェントが共同で作成した127ドルの高品質なタスクで構成されている。
平均して、LCMは16.2ドル、タスクごとに17.4ドルのツールコールを必要とし、以前のMPPベンチマークよりも大幅に上回っている。
論文 参考訳(メタデータ) (2025-09-28T17:53:27Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [54.67512489842682]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。