論文の概要: AIRA_2: Overcoming Bottlenecks in AI Research Agents
- arxiv url: http://arxiv.org/abs/2603.26499v1
- Date: Fri, 27 Mar 2026 15:02:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.561364
- Title: AIRA_2: Overcoming Bottlenecks in AI Research Agents
- Title(参考訳): AIRA_2:AI研究エージェントにおけるボットネックの克服
- Authors: Karen Hambardzumyan, Nicolas Baldwin, Edan Toledo, Rishi Hazra, Michael Kuchnik, Bassel Al Omari, Thomas Simon Foster, Anton Protopopov, Jean-Christophe Gagnon-Audet, Ishita Mediratta, Kelvin Niu, Michael Shvartsman, Alisia Lupidi, Alexis Audran-Reiss, Parth Pathak, Tatiana Shavrina, Despoina Magka, Hela Momand, Derek Dunfield, Nicola Cancedda, Pontus Stenetorp, Carole-Jean Wu, Jakob Nicolaus Foerster, Yoram Bachrach, Martin Josifoski,
- Abstract要約: 既存の研究は、AI研究エージェントにおける3つの構造的パフォーマンスボトルネックを特定している。
AIRA$は、3つのアーキテクチャ選択を通じてこれらのボトルネックに対処します。
MLE-bench-30では、AIRA$が平均71.8%のパーセンタイルランクを24時間で達成し、前回の69.9%を上回った。
- 参考スコア(独自算出の注目度): 31.269750755536247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing research has identified three structural performance bottlenecks in AI research agents: (1) synchronous single-GPU execution constrains sample throughput, limiting the benefit of search; (2) a generalization gap where validation-based selection causes performance to degrade over extended search horizons; and (3) the limited capability of fixed, single-turn LLM operators imposes a ceiling on search performance. We introduce AIRA$_2$, which addresses these bottlenecks through three architectural choices: an asynchronous multi-GPU worker pool that increases experiment throughput linearly; a Hidden Consistent Evaluation protocol that delivers a reliable evaluation signal; and ReAct agents that dynamically scope their actions and debug interactively. On MLE-bench-30, AIRA$_2$ achieves a mean Percentile Rank of 71.8% at 24 hours - surpassing the previous best of 69.9% - and steadily improves to 76.0% at 72 hours. Ablation studies reveal that each component is necessary and that the "overfitting" reported in prior work was driven by evaluation noise rather than true data memorization.
- Abstract(参考訳): 既存の研究では,(1)同期単一GPU実行によるサンプリングスループットの制限,検索のメリットの制限,(2)検証ベースの選択が探索地平線上で性能を低下させる一般化ギャップ,(3)固定単ターンLLM演算子の限界能力が探索性能に悪影響を及ぼす,という3つの構造的パフォーマンスボトルネックが指摘されている。
AIRA$_2$は,実験スループットを線形に向上する非同期マルチGPUワーカープール,信頼性の高い評価信号を提供するHidden Consistent Evaluationプロトコル,アクションを動的にスコープしインタラクティブに対話するReActエージェントの3つのアーキテクチャ選択を通じて,これらのボトルネックに対処する。
MLE-bench-30では、AIRA$_2$が平均71.8%のパーセンタイルランクを24時間で達成し、69.9%を上回り、72時間で76.0%に着実に改善している。
アブレーション研究により、各コンポーネントは必要であり、先行研究で報告された「過度な適合」は、真のデータ記憶よりも評価ノイズによって引き起こされたことが明らかとなった。
関連論文リスト
- Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering [52.67783579040657]
AceGRPOは、エージェントの学習フロンティアにおけるタスクを優先順位付けして学習効率を最大化する機械学習システムである。
我々のトレーニングされたAce-30Bモデルは、MLE-Bench-Lite上で100%有効な応募率を実現し、プロプライエタリなフロンティアモデルの性能にアプローチし、より大きなオープンソースベースラインを上回ります。
論文 参考訳(メタデータ) (2026-02-08T10:55:03Z) - CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - AI, Metacognition, and the Verification Bottleneck: A Three-Wave Longitudinal Study of Human Problem-Solving [0.0]
このパイロット研究は、AIが学術的な環境での6ヶ月にわたる問題解決にどのように影響するかを追跡した。
結果は、主にアーリーアドプター、学術関連集団に一般化される。
論文 参考訳(メタデータ) (2026-01-21T15:49:04Z) - LACONIC: Dense-Level Effectiveness for Scalable Sparse Retrieval via a Two-Phase Training Curriculum [73.82125917416067]
LACONICは、Llama-3アーキテクチャに基づく学習されたスパースレトリバーのファミリーである。
8Bの派生型はMTEB Retrievalベンチマークで最先端の60.2 nDCGを達成し、リーダーボードで15位となった。
論文 参考訳(メタデータ) (2026-01-04T22:42:20Z) - HiPRAG: Hierarchical Process Rewards for Efficient Agentic Retrieval Augmented Generation [21.08814504507274]
準最適探索行動は、オーバーサーチやアンダーサーチなど、広く存在する。
現在のトレーニング方法は、通常、RLフレームワークの成果ベースの報酬に依存するが、これらの非効率に対処するために必要なきめ細かい制御が欠如している。
我々は、RLトレーニングに詳細な知識に基づくプロセス報酬を組み込んだトレーニング手法であるHiPRAGを紹介する。
論文 参考訳(メタデータ) (2025-10-09T05:13:10Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Product of Experts with LLMs: Boosting Performance on ARC Is a Matter of Perspective [3.2771631221674333]
トレーニング、生成、スコアリングフェーズを通じて、タスク固有のデータ拡張を活用します。
深度優先探索アルゴリズムを用いて多種多様な高確率候補解を生成する。
本手法はパブリックARC-AGI評価セットにおいて71.6%(286.5/400タスク)のスコアを得る。
論文 参考訳(メタデータ) (2025-05-08T11:17:10Z) - ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文 参考訳(メタデータ) (2022-03-23T08:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。