論文の概要: Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering
- arxiv url: http://arxiv.org/abs/2601.10402v1
- Date: Thu, 15 Jan 2026 13:52:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.150125
- Title: Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering
- Title(参考訳): 超長距離エージェント科学に向けて:機械学習工学のための認知的蓄積
- Authors: Xinyu Zhu, Yuzhu Cai, Zexi Liu, Bingyang Zheng, Cheng Wang, Rui Ye, Jiaao Chen, Hanrui Wang, Wei-Chen Wang, Yuzhi Zhang, Linfeng Zhang, Weinan E, Di Jin, Siheng Chen,
- Abstract要約: 超長距離機械学習工学(MLE)を習得する自律エージェントML-Master 2.0を提案する。
文脈管理を認知的蓄積のプロセスとして考えることで、階層的認知キャッシング(HCC)を導入する。
HCCは、エージェントが短期的な実験戦略から即時実行を分離することを可能にする。
オープンAIのMLE-Benchを24時間予算で評価すると、ML-Master 2.0は56.44%の最先端のメダルを獲得した。
- 参考スコア(独自算出の注目度): 59.18634614089481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of artificial intelligence toward agentic science is currently bottlenecked by the challenge of ultra-long-horizon autonomy, the ability to sustain strategic coherence and iterative correction over experimental cycles spanning days or weeks. While Large Language Models (LLMs) have demonstrated prowess in short-horizon reasoning, they are easily overwhelmed by execution details in the high-dimensional, delayed-feedback environments of real-world research, failing to consolidate sparse feedback into coherent long-term guidance. Here, we present ML-Master 2.0, an autonomous agent that masters ultra-long-horizon machine learning engineering (MLE) which is a representative microcosm of scientific discovery. By reframing context management as a process of cognitive accumulation, our approach introduces Hierarchical Cognitive Caching (HCC), a multi-tiered architecture inspired by computer systems that enables the structural differentiation of experience over time. By dynamically distilling transient execution traces into stable knowledge and cross-task wisdom, HCC allows agents to decouple immediate execution from long-term experimental strategy, effectively overcoming the scaling limits of static context windows. In evaluations on OpenAI's MLE-Bench under 24-hour budgets, ML-Master 2.0 achieves a state-of-the-art medal rate of 56.44%. Our findings demonstrate that ultra-long-horizon autonomy provides a scalable blueprint for AI capable of autonomous exploration beyond human-precedent complexities.
- Abstract(参考訳): エージェント科学への人工知能の進歩は、現在、超長期の自律性の挑戦、戦略的な一貫性を維持する能力、数日から数週間にわたる実験サイクルに対する反復的な修正によってボトルネックになっている。
LLM(Large Language Models)は、短期水平推論の進歩を実証しているが、実世界の研究の高次元、遅延フィードバック環境における実行の詳細によって容易に圧倒され、スパースフィードバックをコヒーレントな長期ガイダンスに統合することができなかった。
本稿では,超長距離機械学習工学(MLE)を習得する自律エージェントML-Master 2.0について紹介する。
文脈管理を認知的蓄積のプロセスとして再定義することで,階層的認知キャッシング(HCC)を導入し,時間とともに経験の構造的分化を可能にするコンピュータシステムにインスパイアされた多層アーキテクチャを提案する。
HCCは、過渡的実行トレースを安定した知識とクロスタスクの知恵に動的に蒸留することにより、エージェントが短期的な実験戦略から即時実行を分離し、静的コンテキストウィンドウのスケーリング制限を効果的に克服することを可能にする。
オープンAIのMLE-Benchを24時間予算で評価すると、ML-Master 2.0は56.44%の最先端のメダルを獲得した。
我々の研究は、超長期の自律性は、人間の先行する複雑さを越えて自律的な探索を可能にする、スケーラブルなAIの青写真を提供することを示した。
関連論文リスト
- Dynamic Intelligence Ceilings: Measuring Long-Horizon Limits of Planning and Creativity in Artificial Systems [0.0]
現代のAIシステムの中心的な制限は、それ自体が能力ではなく、パフォーマンスフロンティアの早期固定にある、と我々は主張する。
本稿では,ある時点においてシステムによって達成可能な有効知能の最高レベルとして定義された,EmphDynamic Intelligence Ceiling(DIC)の概念を紹介する。
我々は2つの推定器を用いてDICを運用する: 制限された資源下での最大解答困難を捕捉するEmph Difficulty Ceiling (PDC) と、このフロンティアの時間的進化を定量化するEmphCeiling Drift Rate (CDR) である。
論文 参考訳(メタデータ) (2026-01-03T00:13:45Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - ExpVid: A Benchmark for Experiment Video Understanding & Reasoning [65.17173232816818]
科学実験ビデオ上でMLLMを体系的に評価する最初のベンチマークであるExpVidを紹介する。
ExpVid 上で 19 個のMLLM を評価し, 粗粒度認識に優れる一方で, 詳細さの曖昧化, 時間経過による状態変化の追跡, 実験手順と科学的成果のリンクに苦慮していることがわかった。
この結果から,特に高次推論において,プロプライエタリモデルとオープンソースモデルとの顕著なパフォーマンスギャップが明らかとなった。
論文 参考訳(メタデータ) (2025-10-13T16:45:28Z) - Learning on the Job: An Experience-Driven Self-Evolving Agent for Long-Horizon Tasks [42.78572295558531]
大規模言語モデルは、さまざまなドメインにまたがる顕著な機能を示しているが、現実の長期タスクのためのAIエージェントとしてそれらをデプロイする場合には、大きな課題が続く。
既存のLLMエージェントは、テスト時の静的であり、経験から学ぶことができず、知識を蓄積し、仕事を継続的に改善する能力が欠如している。
本稿では,階層型メモリモジュールを中心に,経験駆動型自己進化型システムを実現する新しいエージェントフレームワークであるMUSEを提案する。
論文 参考訳(メタデータ) (2025-10-09T09:40:34Z) - LatentEvolve: Self-Evolving Test-Time Scaling in Latent Space [66.71318175695988]
Test-timeScaling (TTS) は、モデルパラメータを変更することなく、推論フェーズにおけるLarge Language Models (LLM) の推論能力を著しく向上することが実証されている。
本稿では,補完学習システム理論に触発された自己進化型潜在TSフレームワークであるLatentEvolveを提案する。
論文 参考訳(メタデータ) (2025-09-29T13:37:39Z) - ML-Master: Towards AI-for-AI via Integration of Exploration and Reasoning [49.25518866694287]
本稿では,探索と推論をシームレスに統合する新しいAI4AIエージェントであるML-Masterを提案する。
我々はML-MasterをMLE-Benchで評価し、平均メダル率29.3%を達成し、既存の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2025-06-19T17:53:28Z) - Intrinsic Language-Guided Exploration for Complex Long-Horizon Robotic
Manipulation Tasks [12.27904219271791]
現在の強化学習アルゴリズムは、スパースで複雑な環境で苦労している。
Intrinsically Guided Exploration from Large Language Models (IGE-LLMs) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-28T11:14:52Z) - Incremental procedural and sensorimotor learning in cognitive humanoid
robots [52.77024349608834]
本研究は,手順を段階的に学習する認知エージェントを提案する。
各サブステージで必要とされる認知機能と, エージェントが未解決の課題に, 新たな機能の追加がどう対処するかを示す。
結果は、このアプローチが複雑なタスクを段階的に解くことができることを示している。
論文 参考訳(メタデータ) (2023-04-30T22:51:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。