論文の概要: Auto Researching, not hyperparameter tuning: Convergence Analysis of 10,000 Experiments
- arxiv url: http://arxiv.org/abs/2603.15916v1
- Date: Mon, 16 Mar 2026 21:05:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.988796
- Title: Auto Researching, not hyperparameter tuning: Convergence Analysis of 10,000 Experiments
- Title(参考訳): ハイパーパラメータチューニングではなくオートリサーチ:1万実験の収束解析
- Authors: Xiaoyi Li,
- Abstract要約: ダシュカム衝突検出を27日間にわたって行うために, 2つのLDMエージェントが108,000セルの構成空間上で実行する10,469の実験を分析した。
bftextarchitectural の選択はパフォーマンスの94%を説明してくれます。
エントロピーサイクルによるマルチエージェント探索のダイナミクスを特徴付けるとともに,エフェデレントな勝利バックボーン上での検証を行う。
- 参考スコア(独自算出の注目度): 1.6498361958317636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When LLM agents autonomously design ML experiments, do they perform genuine architecture search -- or do they default to hyperparameter tuning within a narrow region of the design space? We answer this question by analyzing 10,469 experiments executed by two LLM agents (Claude Opus and Gemini 2.5 Pro) across a combinatorial configuration space of 108,000 discrete cells for dashcam collision detection over 27 days. Through ANOVA decomposition, we find that \textbf{architectural choices explain 94\% of performance variance} ($F = 1324$, $η^2 = 0.94$), while hyperparameter variation within a fixed architecture explains only 6\%. Cross-task validation on a second collision dataset confirms this finding (75\% architecture-explained variance) with a \emph{different} winning backbone, confirming genuine architecture discovery. The agents' key contribution is discovering that V-JEPA\,2 video features with Zipformer temporal encoders achieve 0.9245 AP -- a configuration no human proposed -- and concentrating search on productive architectural regions: at $N = 50$, LLM-guided search reaches AP $= 0.985$ versus $0.965$ for from-scratch random search. Post-bugfix convergence follows a power law ($c = 0.11$, $R^2 = 0.93$); the low exponent reflects the cost of broad exploration, not inefficiency, since the LLM discovers qualitatively better regions than random or Bayesian baselines. We characterize multi-agent search dynamics via entropy cycles and Jensen--Shannon specialization, providing the first large-scale empirical framework for LLM-guided combinatorial ML experiment design.
- Abstract(参考訳): LLMエージェントが自律的にML実験を設計する場合、それらは真のアーキテクチャサーチを実行しますか -- それとも、デザイン空間の狭い領域内でハイパーパラメータチューニングをデフォルトにしていますか?
ダシュカム衝突検出のための108,000個の離散セルの組合せ構成空間を2つのLLMエージェント(Claude Opus と Gemini 2.5 Pro)が27日間にわたって実行した10,469個の実験を解析することにより、この問題に答える。
ANOVA分解により、 textbf{architectural choices explain 94\% of performance variance} (F = 1324$, $η^2 = 0.94$) が、固定アーキテクチャ内のハイパーパラメータ変動は6\%しか説明できない。
第2の衝突データセット上でのクロスタスク検証では、この発見(アーキテクチャによる説明分散)と、‘emph{different}’の当選バックボーンを確認し、真のアーキテクチャ発見を確認している。
エージェントの主な貢献は、Zipformerの時間エンコーダを備えたV-JEPA\,2ビデオ機能が、人間の提案しない構成である0.9245 APを実現し、生産的なアーキテクチャ領域の検索を集中させることである。
ポストバグフィックス収束はパワー法(c = 0.11$, $R^2 = 0.93$)に従い、低指数は非効率ではなく広い探索コストを反映する。
エントロピーサイクルとJensen-Shannon特殊化によるマルチエージェント探索のダイナミクスを特徴付け、LLM誘導複合ML実験設計のための最初の大規模実験フレームワークを提供する。
関連論文リスト
- From Phase Prediction to Phase Design: A ReAct Agent Framework for High-Entropy Alloy Discovery [0.0]
本稿では,HEA合成を自律的に提案し,検証し,反復的に洗練するReAct (Reasoning + Acting) LLMエージェントを提案する。
フルプロンプトエージェントは、FCC、BCC、BCC+FCCの38%、18%、および38%のディスクリプタ空間再発見率を達成する。
本研究は, LLM誘導型エージェント推論を, 逆合金設計における勾配自由最適化の原理的, 透過的, 多様体的補完として確立する。
論文 参考訳(メタデータ) (2026-03-10T14:20:53Z) - $\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文 参考訳(メタデータ) (2026-03-05T08:42:54Z) - δ-EMG: A Monotonic Graph Index for Approximate Nearest Neighbor Search [33.62724124122037]
本稿では,クエリ時における近似精度を制御する誤り境界付きANN探索アルゴリズムを提案する。
0.99のリコール条件下では、SIFT1Mデータセット上で19,000QPSを達成し、他の手法よりも40%以上性能が向上する。
論文 参考訳(メタデータ) (2025-11-21T03:20:54Z) - Randomized Exploration in Cooperative Multi-Agent Reinforcement Learning [15.46907000938726]
協調型マルチエージェント強化学習(MARL)における確率的ランダム化探索に関する最初の研究について述べる。
並列マルコフ決定過程(MDP)におけるランダム化探索のための統一されたアルゴリズムフレームワークと,2つのトンプソンサンプリング型アルゴリズムであるCoopTS-PHEとCoopTS-LMCを提案する。
提案手法は, 深層探査問題(例えば$N$-chain), ビデオゲーム, エネルギーシステムにおける実世界の問題など, 複数並列RL環境における提案手法の評価を行う。
論文 参考訳(メタデータ) (2024-04-16T17:01:38Z) - ArchGym: An Open-Source Gymnasium for Machine Learning Assisted
Architecture Design [52.57999109204569]
ArchGymは、さまざまな検索アルゴリズムをアーキテクチャシミュレータに接続するオープンソースのフレームワークである。
我々は、カスタムメモリコントローラ、ディープニューラルネットワークアクセラレータ、AR/VRワークロード用のカスタムSOCを設計する際に、複数のバニラおよびドメイン固有の検索アルゴリズムにわたってArchGymを評価する。
論文 参考訳(メタデータ) (2023-06-15T06:41:23Z) - FeDXL: Provable Federated Learning for Deep X-Risk Optimization [105.17383135458897]
我々は、既存のアルゴリズムが適用できないXリスクのファミリーを最適化するために、新しい連邦学習(FL)問題に取り組む。
Xリスクに対するFLアルゴリズムを設計する際の課題は、複数のマシンに対する目的の非可逆性と、異なるマシン間の相互依存にある。
論文 参考訳(メタデータ) (2022-10-26T00:23:36Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - ZARTS: On Zero-order Optimization for Neural Architecture Search [94.41017048659664]
微分可能なアーキテクチャサーチ (DARTS) は、NASの高効率性のため、一般的なワンショットパラダイムである。
この作業はゼロオーダーの最適化に変わり、上記の近似を強制せずに探索するための新しいNASスキームであるZARTSを提案する。
特に、12ベンチマークの結果は、DARTSの性能が低下するZARTSの顕著な堅牢性を検証する。
論文 参考訳(メタデータ) (2021-10-10T09:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。