論文の概要: Reasoning as Gradient: Scaling MLE Agents Beyond Tree Search
- arxiv url: http://arxiv.org/abs/2603.01692v2
- Date: Tue, 10 Mar 2026 02:43:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.661026
- Title: Reasoning as Gradient: Scaling MLE Agents Beyond Tree Search
- Title(参考訳): グラディエントとしての推論:木探索を超えてMLEエージェントをスケーリングする
- Authors: Yifei Zhang, Xu Yang, Xiao Yang, Bowen Xian, Qizheng Li, Shikai Fang, Jingyuan Li, Jian Wang, Mingrui Xu, Weiqing Liu, Jiang Bian,
- Abstract要約: 我々は、勾配に基づく最適化を運用するMLEエージェントであるtextscGomeを紹介する。
textscGomeは、MLE-Bench上での最先端の35.1%の医療率を実現し、単一のV100 GPU上では12時間の予算が制限されている。
- 参考スコア(独自算出の注目度): 29.662680998899294
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LLM-based agents for machine learning engineering (MLE) predominantly rely on tree search, a form of gradient-free optimization that uses scalar validation scores to rank candidates. As LLM reasoning capabilities improve, exhaustive enumeration becomes increasingly inefficient compared to directed updates, analogous to how accurate gradients enable efficient descent over random search. We introduce \textsc{Gome}, an MLE agent that operationalizes gradient-based optimization. \textsc{Gome} maps structured diagnostic reasoning to gradient computation, success memory to momentum, and multi-trace execution to distributed optimization. Under a closed-world protocol that isolates architectural effects from external knowledge, \textsc{Gome} achieves a state-of-the-art 35.1\% any-medal rate on MLE-Bench with a restricted 12-hour budget on a single V100 GPU. Scaling experiments across 10 models reveal a critical crossover: with weaker models, tree search retains advantages by compensating for unreliable reasoning through exhaustive exploration; as reasoning capability strengthens, gradient-based optimization progressively outperforms, with the gap widening at frontier-tier models. Given the rapid advancement of reasoning-oriented LLMs, this positions gradient-based optimization as an increasingly favorable paradigm. We release our codebase and GPT-5 traces at https://github.com/microsoft/RD-Agent.
- Abstract(参考訳): 機械学習エンジニアリング(MLE)のためのLLMベースのエージェントは、主に木探索に依存している。
LLM推論能力が向上するにつれて、徹底的な列挙は直接更新に比べて効率が悪くなる。
本稿では,勾配に基づく最適化を運用するMLEエージェントであるtextsc{Gome}を紹介する。
\textsc{Gome} は、構造化された診断推論を勾配計算、成功メモリを運動量に、マルチトレース実行を分散最適化にマッピングする。
外部の知識からアーキテクチャ効果を分離するクローズドワールドプロトコルの下で、 \textsc{Gome}は、単一のV100 GPU上で12時間の予算が制限されたMLE-Bench上で、最先端の35.1\%の薬品レートを達成する。
モデルが弱いため、木探索は徹底的な探索を通じて信頼性の低い推論を補うことで利点を保ち、推論能力が強化されるにつれて、勾配に基づく最適化は徐々に向上し、フロンティア層モデルではギャップが広がる。
推論指向LLMの急速な進歩を考えると、勾配に基づく最適化はより好ましいパラダイムとして位置づけられる。
コードベースとGPT-5トレースはhttps://github.com/microsoft/RD-Agent.comで公開しています。
関連論文リスト
- $\
abla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文 参考訳(メタデータ) (2026-03-05T08:42:54Z) - Hi-ZFO: Hierarchical Zeroth- and First-Order LLM Fine-Tuning via Importance-Guided Tensor Selection [4.808936079900314]
FO勾配をZO推定と相乗化するためにtextbfHi-ZFO (textbfHierarchical textbfZeroth- and textbfFirst-textbfOrder optimization) を提案する。
また,Hi-ZFOはトレーニング時間を大幅に短縮しつつ,優れた性能を実現していることを示す。
論文 参考訳(メタデータ) (2026-01-09T03:20:54Z) - Backward-Friendly Optimization: Training Large Language Models with Approximate Gradients under Memory Constraints [14.20716202034732]
LLM(Large Language Models)の完全な微調整は、メモリ集約性で悪名高い。
GradLiteは、正確な勾配の要求を緩和する後方フレンドリーなソリューションである。
我々はGradLiteが有界な分散を伴う不偏推定を維持し、Adamに匹敵する収束率を保証することを示す。
論文 参考訳(メタデータ) (2025-10-26T00:50:12Z) - Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models [68.96619605651155]
大規模推論モデル(LRM)は、過度に考えることによって出力長を大幅に増加させる可能性がある。
モデル生成推論経路を異なる思考パターンに分割する動的最適化フレームワークを提案する。
提案手法は, 最大12%の精度向上を実現し, トークン使用量を約5,000から3,000に削減する。
論文 参考訳(メタデータ) (2025-05-27T20:59:29Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。
本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。
本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文 参考訳(メタデータ) (2024-05-30T06:24:14Z) - SHOT: Suppressing the Hessian along the Optimization Trajectory for
Gradient-Based Meta-Learning [28.26143547479141]
SHOT(Suppressing the Hessian along the Optimization Trajectory)と呼ばれるアルゴリズムを導入する。
SHOTはベースラインモデルの計算複雑性をあまり増やさない。
本仮説を実証的に検証し,SHOTが対応するベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-04T11:43:08Z) - Tom: Leveraging trend of the observed gradients for faster convergence [0.0]
TomはAdamの新しい変種であり、ニューラルネットワークによって渡される損失の風景の勾配の傾向を考慮に入れている。
Tomは両方の精度でAdagrad、Adadelta、RMSProp、Adamを上回り、より早く収束する。
論文 参考訳(メタデータ) (2021-09-07T20:19:40Z) - A Primer on Zeroth-Order Optimization in Signal Processing and Machine
Learning [95.85269649177336]
ZO最適化は、勾配推定、降下方向、ソリューション更新の3つの主要なステップを反復的に実行する。
我々は,ブラックボックス深層学習モデルによる説明文の評価や生成,効率的なオンラインセンサ管理など,ZO最適化の有望な応用を実証する。
論文 参考訳(メタデータ) (2020-06-11T06:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。