論文の概要: Toward Autonomous Long-Horizon Engineering for ML Research
- arxiv url: http://arxiv.org/abs/2604.13018v1
- Date: Tue, 14 Apr 2026 17:55:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.598926
- Title: Toward Autonomous Long-Horizon Engineering for ML Research
- Title(参考訳): 機械学習研究のための自律型長距離工学を目指して
- Authors: Guoxin Chen, Jie Chen, Lei Chen, Jiale Zhao, Fanzhe Meng, Wayne Xin Zhao, Ruihua Song, Cheng Chen, Ji-Rong Wen, Kai Jia,
- Abstract要約: AiScientistは、シンプルな原理に基づいて構築されたML研究のための自律的な長距離エンジニアリングシステムである。
AiScientistは階層的なオーケストレーションとパーミッションスコープのFile-as-Busワークスペースを組み合わせる。
- 参考スコア(独自算出の注目度): 89.63005598358639
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous AI research has advanced rapidly, but long-horizon ML research engineering remains difficult: agents must sustain coherent progress across task comprehension, environment setup, implementation, experimentation, and debugging over hours or days. We introduce AiScientist, a system for autonomous long-horizon engineering for ML research built on a simple principle: strong long-horizon performance requires both structured orchestration and durable state continuity. To this end, AiScientist combines hierarchical orchestration with a permission-scoped File-as-Bus workspace: a top-level Orchestrator maintains stage-level control through concise summaries and a workspace map, while specialized agents repeatedly re-ground on durable artifacts such as analyses, plans, code, and experimental evidence rather than relying primarily on conversational handoffs, yielding thin control over thick state. Across two complementary benchmarks, AiScientist improves PaperBench score by 10.54 points on average over the best matched baseline and achieves 81.82 Any Medal% on MLE-Bench Lite. Ablation studies further show that File-as-Bus protocol is a key driver of performance, reducing PaperBench by 6.41 points and MLE-Bench Lite by 31.82 points when removed. These results suggest that long-horizon ML research engineering is a systems problem of coordinating specialized work over durable project state, rather than a purely local reasoning problem.
- Abstract(参考訳): エージェントは、タスク理解、環境設定、実装、実験、数時間から数日にわたって、一貫性のある進捗を維持する必要があります。
AiScientist(AiScientist)は、ML研究のための自律的ロングホライズンエンジニアリングのためのシステムであり、強力なロングホライズンパフォーマンスは構造化オーケストレーションと耐久性のある状態継続の両方を必要とする。
この目的のために、AiScientistは階層的なオーケストレーションとパーミッションスコープのFile-as-Busワークスペースを組み合わせ、トップレベルのOrchestratorは簡潔な要約とワークスペースマップを通じてステージレベルのコントロールを維持し、専門エージェントは分析、計画、コード、実験的なエビデンスなどの耐久性のあるアーティファクトを、主に会話のハンドオフに頼るのではなく、より厚い状態に対する薄い制御を繰り返す。
AiScientistは2つのベンチマークで、ベストマッチベースラインで平均10.54ポイントのPaperBenchスコアを改善し、MLE-Bench Liteで81.82 Any Medal%を達成している。
アブレーション研究では、File-as-Busプロトコルがパフォーマンスのキードライバであることが示され、PaperBenchは6.41ポイント、MLE-Bench Liteは31.82ポイント削減された。
これらの結果は、長期ML研究工学は、純粋に局所的な推論問題ではなく、耐久性のあるプロジェクト状態よりも専門的な作業をコーディネートするシステム問題であることを示している。
関連論文リスト
- The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break [69.91172974854422]
HORIZONは、大規模言語モデル(LLM)エージェントの長期障害挙動を解析するためのクロスドメイン診断ベンチマークである。
我々は,複数のモデルファミリーのSOTA(State-of-the-art)エージェントを評価し,水平方向依存劣化パターンについて検討した。
本研究は, 長期薬物障害の系統的, クロスドメイン解析への最初の方法論的ステップを提供する。
論文 参考訳(メタデータ) (2026-04-13T19:11:42Z) - LUMINA: LLM-Guided GPU Architecture Exploration via Bottleneck Analysis [8.471843667828994]
大規模言語モデル(LLM)推論は、GPUの広大なマルチモーダルな設計空間のために困難である。
既存の自動DSEメソッドは、しばしば違法に高価である。
我々は,AIを活用してDSE効率を向上させるLLM駆動型GPUアーキテクチャ探索フレームワークLUMINAを提案する。
論文 参考訳(メタデータ) (2026-03-06T04:47:18Z) - LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces [65.11019654023978]
LongCLI-Benchは、長期にわたる現実的なタスクにまたがるエージェント能力を評価するために設計されたベンチマークである。
私たちは、1000以上のコンピュータサイエンスの課題と現実世界のタスクから、20の高品質で長い水平タスクをキュレートしました。
実験によると、最先端のエージェントでさえLongCLI-Benchの20%未満のパスレートを達成する。
論文 参考訳(メタデータ) (2026-02-15T23:12:57Z) - AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents [49.67355440164857]
AIRS-Benchは、最先端の機械学習論文から得られた20のタスクからなるスイートである。
Airs-Benchタスクは、研究ライフサイクル全体のエージェント能力を評価する。
本稿では,AIRS-Benchタスク定義と評価コードをオープンソースとして公開し,自律科学研究のさらなる発展を促す。
論文 参考訳(メタデータ) (2026-02-06T16:45:02Z) - Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering [59.18634614089481]
超長距離機械学習工学(MLE)を習得する自律エージェントML-Master 2.0を提案する。
文脈管理を認知的蓄積のプロセスとして考えることで、階層的認知キャッシング(HCC)を導入する。
HCCは、エージェントが短期的な実験戦略から即時実行を分離することを可能にする。
オープンAIのMLE-Benchを24時間予算で評価すると、ML-Master 2.0は56.44%の最先端のメダルを獲得した。
論文 参考訳(メタデータ) (2026-01-15T13:52:04Z) - OdysseyBench: Evaluating LLM Agents on Long-Horizon Complex Office Application Workflows [10.318744035680398]
大規模言語モデル(LLM)は、複雑で長期の推論を必要とする現実世界のアプリケーションにますます多くデプロイされている。
OdysseyBenchは、様々なオフィスアプリケーションにわたる長期にわたってLLMエージェントを評価するための包括的なベンチマークである。
スケーラブルなベンチマーク作成を実現するために,長期ワークフローベンチマークの自動生成を行うマルチエージェントフレームワークであるHomerAgentsを提案する。
論文 参考訳(メタデータ) (2025-08-12T17:53:03Z) - Beyond Needle(s) in the Embodied Haystack: Environment, Architecture, and Training Considerations for Long Context Reasoning [11.179019629415514]
$infty$-THORは、エンボディドAIにおける長期コンテキスト理解を促進する、長期的なエンボディドタスクのための新しいフレームワークである。
a new embodied QA task, Needle(s) in the Embodied Haystack, (3) long-horizon dataset and benchmark suite。
論文 参考訳(メタデータ) (2025-05-22T17:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。