論文の概要: Frontier Coding Agents Can Now Implement an AlphaZero Self-Play Machine Learning Pipeline For Connect Four That Performs Comparably to an External Solver
- arxiv url: http://arxiv.org/abs/2604.25067v2
- Date: Wed, 29 Apr 2026 00:38:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 13:51:54.13493
- Title: Frontier Coding Agents Can Now Implement an AlphaZero Self-Play Machine Learning Pipeline For Connect Four That Performs Comparably to an External Solver
- Title(参考訳): フロンティアのコーディングエージェントがAlphaZeroのセルフプレイ機械学習パイプラインを実装
- Authors: Joshua Sherwood, Ben Aybar, Benjamin Kaplan,
- Abstract要約: 我々は、過去のAI研究のブレークスルーからエンドツーエンドの機械学習パイプラインを自律的に実装するAIの能力を測定することを提案する。
我々は、Connect FourのためのAlphaZeroスタイルの機械学習パイプラインを、フロンティアコーディングエージェントが自律的に実装する概念実証ベンチマークを導入する。
我々は,Pascal Pons Connect Fourソルバに固定されたラウンドロビントーナメントにおいて,結果のAIを評価する。
- 参考スコア(独自算出の注目度): 0.9558392439655014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Forecasting when AI systems will become capable of meaningfully accelerating AI research is a central challenge for AI safety. Existing benchmarks measure broad capability growth, but may not provide ample early warning signals for recursive self-improvement. We propose measuring AI's capability to autonomously implement end-to-end machine learning pipelines from past AI research breakthroughs, given a minimal task description. By providing a concise task description instead of the full prior work as reference, we hope to better elicit emerging AI research taste. We introduce a proof-of-concept benchmark in which frontier coding agents autonomously implement an AlphaZero-style machine learning pipeline for Connect Four on consumer hardware within a three-hour budget, and we evaluate the resulting game AIs in a round-robin tournament anchored to the Pascal Pons Connect Four solver. Across four agents with eight trials each, we find substantial differentiation: Claude Opus 4.7 won as first-mover against Pons in seven of eight trials, statistically significantly better than the other agents tested, none of which exceeded two of eight. The task, which no frontier agent could reliably complete when we began development in January of 2026, is now near-saturation. Our evaluation also surfaced anomalous behavior in GPT-5.4, which consistently used far less of its allocated time budget than other agents. A follow-up 16-trial probe using shorter, less evaluation-coded prompts substantially increased GPT-5.4's time-budget usage, consistent with but not diagnostic of sandbagging; Bradley-Terry ratings across probe conditions showed only directional differences, despite significant differences in time-budget usage. We release our data, code, and prompts to support reproduction and extension.
- Abstract(参考訳): AIシステムがAI研究を有意義に加速する能力を持つようになると予測することは、AIの安全性にとって重要な課題である。
既存のベンチマークは、幅広い能力の成長を測定するが、再帰的な自己改善のための十分な早期警告信号を提供しない可能性がある。
我々は、最小限のタスク記述から、過去のAI研究のブレークスルーからエンドツーエンドの機械学習パイプラインを自律的に実装するAIの能力を測定することを提案する。
事前の作業を完全に参照するのではなく、簡潔なタスク記述を提供することで、新たなAI研究の嗜好をよりよいものにしたいと思っています。
本稿では,フロンティアコーディングエージェントが3時間の予算でコンシューマハードウェア上でConnect Four用のAlphaZeroスタイルの機械学習パイプラインを自律的に実装し,Pascal Pons Connect Fourソルバに固定されたラウンドロビントーナメントにおけるゲームAIの評価を行う,概念実証ベンチマークを提案する。
クロード・オプス4.7は8つの試験のうち7つの試験のうち、第1回対ポンス戦で勝利した。
2026年1月に開発を始めたとき、フロンティアエージェントが確実に完成できなかったこのタスクは、現在ほぼ飽和状態にある。
また, GPT-5.4では, 時間予算が他のエージェントよりもはるかに少ない, 異常な挙動がみられた。
短い、より少ない評価符号のプロンプトを用いた16回の調査では、GPT-5.4の時間予算の使用が大幅に増加し、サンドバッグの診断と一致しないが、Bradley-Terry のプローブ条件による評価は、時間予算の使用に大きな違いがあるにもかかわらず、方向差しか示さなかった。
再生と拡張をサポートするために、データ、コード、プロンプトをリリースします。
関連論文リスト
- ASI-Evolve: AI Accelerates AI [42.885465604426884]
ASI-EvolveはAI-for-AI研究のためのフレームワークで、学習設計-実験-分析サイクルを通じてループを閉じる。
我々の知る限り、AI-EvolveはAI開発における3つの中心的なコンポーネントにわたるAI駆動の発見を示す最初の統一されたフレームワークです。
論文 参考訳(メタデータ) (2026-03-31T12:04:17Z) - Agent-Driven Autonomous Reinforcement Learning Research: Iterative Policy Improvement for Quadruped Locomotion [14.484745002483258]
本稿では, エージェント駆動型自律強化学習研究における四足歩行のケーススタディについて述べる。
エージェントが実行ループの大部分を実行する間、人間はエージェントコーディング環境を通じて高レベルなディレクティブを提供した。
アイザック・ラボのDHAV1 12-DoFで、70以上の実験が14の波に編成され、初期の粗い地形の走行から7回ほどの平均的な報奨を得て、最高に記録された波動12回、exp063回、速度誤差0.263回と97%のタイムアウトを2000回以上行った。
論文 参考訳(メタデータ) (2026-03-28T21:30:04Z) - AI Co-Scientist for Ranking: Discovering Novel Search Ranking Models alongside LLM-based AI Agents with Cloud Computing Access [60.37646376282544]
本稿では,全検索ランキング研究パイプラインを自動化したAI共同科学者フレームワークを提案する。
これは、AIの共同科学者フレームワークをアルゴリズム研究に利用した、ランキングコミュニティで初めての研究である。
論文 参考訳(メタデータ) (2026-03-23T09:29:08Z) - Early-Stage Prediction of Review Effort in AI-Generated Pull Requests [0.0]
我々は,2,807リポジトリにわたるAIDevデータセットから,エージェントによるPR33,707件を分析した。
本稿では,高解像度PRを生成時に予測するサーキットブレーカートリアージモデルを提案する。
論文 参考訳(メタデータ) (2026-01-02T17:18:01Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - RE-Bench: Evaluating frontier AI R&D capabilities of language model agents against human experts [4.06186944042499]
7つの挑戦的でオープンなMLリサーチエンジニアリング環境と、61人の専門家による71の8時間の試みのデータで構成されるRE-Benchを紹介します。
最高のAIエージェントは、環境当たりの合計時間予算が2時間与えられたとき、人間の専門家よりも4倍高いスコアを得る。
現在、人間は時間予算の増加に対してより良いリターンを示しており、8時間予算で上位AIエージェントのスコアをわずかに上回り、合計32時間(異なる試み)で上位AIエージェントのスコアを2倍にしている。
論文 参考訳(メタデータ) (2024-11-22T18:30:46Z) - Touchstone Benchmark: Are We on the Right Way for Evaluating AI Algorithms for Medical Segmentation? [90.30635552818875]
9種類の腹部臓器の大規模共同セグメント化ベンチマークであるTouchstoneを報告する。
このベンチマークは、世界中の76の病院から5,195回のCTスキャンと、11の病院から5,903回のCTスキャンに基づいています。
私たちは19のAIアルゴリズムの発明者14人を招待してアルゴリズムをトレーニングしましたが、私たちのチームは第三者として、3つのテストセットでこれらのアルゴリズムを独立して評価しました。
論文 参考訳(メタデータ) (2024-11-06T05:09:34Z) - ExACT: Teaching AI Agents to Explore with Reflective-MCTS and Exploratory Learning [78.42927884000673]
ExACTは、エージェントアプリケーションのためのo1のようなモデルを構築するために、テスト時間検索と自己学習を組み合わせるアプローチである。
リフレクティブモンテカルロ木探索(Reflective Monte Carlo Tree Search, R-MCTS)は、AIエージェントがその場で意思決定空間を探索する能力を高めるために設計された新しいテストタイムアルゴリズムである。
次に,探索学習(Exploratory Learning)という,外部探索アルゴリズムに頼らずに,エージェントに推論時間での探索を教える新しい学習戦略を紹介する。
論文 参考訳(メタデータ) (2024-10-02T21:42:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。