論文の概要: AlphaLab: Autonomous Multi-Agent Research Across Optimization Domains with Frontier LLMs
- arxiv url: http://arxiv.org/abs/2604.08590v1
- Date: Tue, 31 Mar 2026 21:16:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.470656
- Title: AlphaLab: Autonomous Multi-Agent Research Across Optimization Domains with Frontier LLMs
- Title(参考訳): AlphaLab:フロンティアLLMを備えた最適化ドメイン全体を対象とした自律的マルチエージェントリサーチ
- Authors: Brendan R. Hogan, Xiwen Chen, James T. Wilson, Kashif Rasul, Adel Boyarsky, Thomas Kamei, Anderson Schneider, Yuriy Nevmyvaka,
- Abstract要約: 計算集約ドメインの完全な実験サイクルを自動化する自律的な研究ハーネスであるAlphaLabを紹介する。
ドメインに適応し、データを探索し、分析コードを書き、研究レポートを作成する。
Strategist/Workerループを通じて大規模な実験を実行し、永続的なプレイブックでドメイン知識を蓄積する。
- 参考スコア(独自算出の注目度): 14.167136550376497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present AlphaLab, an autonomous research harness that leverages frontier LLM agentic capabilities to automate the full experimental cycle in quantitative, computation-intensive domains. Given only a dataset and a natural-language objective, AlphaLab proceeds through three phases without human intervention: (1) it adapts to the domain and explores the data, writing analysis code and producing a research report; (2) it constructs and adversarially validates its own evaluation framework; and (3) it runs large-scale GPU experiments via a Strategist/Worker loop, accumulating domain knowledge in a persistent playbook that functions as a form of online prompt optimization. All domain-specific behavior is factored into adapters generated by the model itself, so the same pipeline handles qualitatively different tasks without modification. We evaluate AlphaLab with two frontier LLMs (GPT-5.2 and Claude Opus 4.6) on three domains: CUDA kernel optimization, where it writes GPU kernels that run 4.4x faster than torch.compile on average (up to 91x); LLM pretraining, where the full system achieves 22% lower validation loss than a single-shot baseline using the same model; and traffic forecasting, where it beats standard baselines by 23-25% after researching and implementing published model families from the literature. The two models discover qualitatively different solutions in every domain (neither dominates uniformly), suggesting that multi-model campaigns provide complementary search coverage. We additionally report results on financial time series forecasting in the appendix, and release all code at https://brendanhogan.github.io/alphalab-paper/.
- Abstract(参考訳): 我々は、Frontier LLMエージェント機能を活用して、定量的、計算集約的な領域における完全な実験サイクルを自動化する、自律的な研究ハーネスであるAlphaLabを紹介する。
データセットと自然言語の目的のみを前提として、AlphaLabは、(1)ドメインに適応し、データを探索し、分析コードを書き、研究レポートを作成すること、(2)独自の評価フレームワークを構築し、逆向きに検証すること、(3)Strategist/Workerループを通じて大規模なGPU実験を実行し、永続的なプレイブックにドメイン知識を蓄積し、オンラインのプロンプト最適化の一形態として機能すること、の3段階を進む。
ドメイン固有の振る舞いはすべて、モデル自身によって生成されたアダプタに分解されるため、同じパイプラインが修正せずに質的に異なるタスクを処理します。
CUDAカーネル最適化では、 torch.compile よりも4.4倍高速で動作するGPUカーネルを平均 (91倍) で記述する。 LLM事前学習では、フルシステムが同じモデルを使用してシングルショットベースラインよりも22%低い検証損失を達成する。
2つのモデルは、各ドメイン(どちらも一様ではない)で定性的に異なる解を発見し、マルチモデルキャンペーンが補完的な検索カバレッジを提供することを示唆している。
また、付録における財務時系列の予測結果を報告し、すべてのコードをhttps://brendanhogan.github.io/alphalab-paper/.comでリリースします。
関連論文リスト
- Deep Researcher Agent: An Autonomous Framework for 24/7 Deep Learning Experimentation with Zero-Cost Monitoring [2.4112990554464235]
textbfDeep Researcher Agentは,大規模言語モデル(LLM)エージェントが時計周辺で自律的にディープラーニング実験を行うことを可能にする,オープンソースのフレームワークである。
論文作成やコード生成に重点を置く既存のAI研究アシスタントとは異なり、私たちのシステムは仮説形成、コード実装、トレーニング実行、結果分析、反復的洗練という、完全な実験ライフサイクルに対処しています。
論文 参考訳(メタデータ) (2026-04-07T13:16:31Z) - RoboPhD: Evolving Diverse Complex Agents Under Tight Evaluation Budgets [0.2126018197183873]
本稿では,エロトーナメントの選択,EPA,グリーディヒルクライミングという3つの最適化パラダイムの体系的比較について述べる。
RoboPhDは、トレーニングとバリデーションの予算を分割する代わりに、トレーニングデータにEloコンペティションを使用してエージェントを同時に評価し、進化を促進する。
我々は、さまざまな複雑なエージェントを進化させるためのシンプルなOptimation_anything() APIを使って、MITライセンスの下で汎用ツールキットとしてRoboPhDをリリースした。
論文 参考訳(メタデータ) (2026-04-06T01:39:13Z) - Evaluating Efficiency and Novelty of LLM-Generated Code for Graph Analysis [0.1274452325287335]
大規模言語モデル(LLM)は、ソフトウェア開発の自動化にますます使われています。
本稿では、グラフ解析ルーチンの効率的なC実装を生成するLLMの能力について包括的に研究する。
これらのモデルがトランスフォーメーションアルゴリズムテクニックを発明する可能性は、将来の研究にとって魅力的なフロンティアである。
論文 参考訳(メタデータ) (2025-07-09T00:46:30Z) - APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay [86.01901238059261]
APIGen-MTは検証可能で多様なマルチターンエージェントデータを生成するフレームワークである。
xLAM-2-fc-r 級数で 1B から 70B のパラメータを持つモデル群を訓練する。
我々のモデルは、$tau$-benchとBFCLベンチマークでGPT-4oやClaude 3.5のようなフロンティアモデルより優れている。
論文 参考訳(メタデータ) (2025-04-04T17:13:57Z) - AIvaluateXR: An Evaluation Framework for on-Device AI in XR with Benchmarking Results [55.33807002543901]
我々は,XRデバイス上で動作する大規模言語モデル(LLM)をベンチマークするための総合評価フレームワークであるAIvaluateXRを提案する。
我々はMagic Leap 2、Meta Quest 3、Vivo X100s Pro、Apple Vision Proという4つのXRプラットフォームに17個の選択されたLSMをデプロイし、広範囲な評価を行います。
本稿では,3次元最適性理論に基づく統一評価手法を提案する。
論文 参考訳(メタデータ) (2025-02-13T20:55:48Z) - Exploring Distributional Shifts in Large Language Models for Code
Analysis [36.73114441988879]
コード機能を持つ3つの大規模言語モデルがどのようにドメイン外データに一般化するかを検討する。
コード要約とコード生成という,2つの基本的なアプリケーションについて検討する。
複数のドメインに適応したモデルが同時に、単一のドメインに適応したモデルと同等に動作していることが分かりました。
論文 参考訳(メタデータ) (2023-03-16T07:45:46Z) - Learning To Dive In Branch And Bound [95.13209326119153]
グラフニューラルネットワークを用いて特定の潜水構造を学習するためのL2Diveを提案する。
我々は、変数の割り当てを予測するために生成モデルを訓練し、線形プログラムの双対性を利用して潜水決定を行う。
論文 参考訳(メタデータ) (2023-01-24T12:01:45Z) - Gradient Matching for Domain Generalization [93.04545793814486]
機械学習システムの重要な要件は、見えないドメインに一般化する能力です。
ドメインの一般化を目標とするドメイン間勾配マッチングの目的を提案する。
我々は、その最適化を近似する単純な一階アルゴリズムfishを導出する。
論文 参考訳(メタデータ) (2021-04-20T12:55:37Z) - Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box
Estimation [87.53808756910452]
そこで我々は,Alpha-Refineと呼ばれる新しい,フレキシブルで高精度な改良モジュールを提案する。
正確なピクセルワイド相関層と空間認識の非局所層を利用して特徴を融合させ、バウンディングボックス、コーナー、マスクの3つの相補的な出力を予測する。
提案するAlpha-Refineモジュールは,DiMP,ATOM,SiamRPN++,RTMDNet,ECOの5つの有名かつ最先端のベーストラッカーに適用する。
論文 参考訳(メタデータ) (2020-07-04T07:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。