論文の概要: Decoupling Search and Learning in Neural Net Training
- arxiv url: http://arxiv.org/abs/2509.10973v1
- Date: Sat, 13 Sep 2025 20:22:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.863074
- Title: Decoupling Search and Learning in Neural Net Training
- Title(参考訳): ニューラルネットトレーニングにおける探索と学習の分離
- Authors: Akshay Vegesna, Samip Dahal,
- Abstract要約: 勾配降下は通常、代替のミニマを探索する機構なしで訓練損失の最小限に収束する。
本稿では,抽出可能な表現空間を探索して多様な表現解を探索するフレームワークと,探索された表現に回帰してパラメータ空間の勾配に基づく学習を提案する。
- 参考スコア(独自算出の注目度): 0.5729426778193397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient descent typically converges to a single minimum of the training loss without mechanisms to explore alternative minima that may generalize better. Searching for diverse minima directly in high-dimensional parameter space is generally intractable. To address this, we propose a framework that performs training in two distinct phases: search in a tractable representation space (the space of intermediate activations) to find diverse representational solutions, and gradient-based learning in parameter space by regressing to those searched representations. Through evolutionary search, we discover representational solutions whose fitness and diversity scale with compute--larger populations and more generations produce better and more varied solutions. These representations prove to be learnable: networks trained by regressing to searched representations approach SGD's performance on MNIST, CIFAR-10, and CIFAR-100. Performance improves with search compute up to saturation. The resulting models differ qualitatively from networks trained with gradient descent, following different representational trajectories during training. This work demonstrates how future training algorithms could overcome gradient descent's exploratory limitations by decoupling search in representation space from efficient gradient-based learning in parameter space.
- Abstract(参考訳): グラディエント降下は通常、より一般化可能な代替ミニマを探索するメカニズムなしで、トレーニング損失の最小限に収束する。
様々なミニマを高次元パラメータ空間で直接探索することは、一般に難解である。
そこで本研究では,抽出可能な表現空間(中間アクティベーションの空間)を探索して,多様な表現解を求めるための2つの異なるフェーズでトレーニングを行うフレームワークを提案し,それらの表現に回帰することでパラメータ空間の勾配に基づく学習を行う。
進化的探索により、より大きな集団と多くの世代がより良い、より多様なソリューションを生み出すように、適合性と多様性がスケールした表現的解を発見する。
これらの表現は学習可能であることが証明され、検索された表現に回帰することで訓練されたネットワークは、MNIST、CIFAR-10、CIFAR-100上でのSGDのパフォーマンスに近づく。
サーチ計算によって飽和までの性能が向上する。
得られたモデルは、トレーニング中に異なる表現軌道に従って勾配降下で訓練されたネットワークと質的に異なる。
本研究は,パラメータ空間における効率的な勾配に基づく学習から表現空間における探索を分離することにより,勾配勾配勾配の探索限界を克服する方法を示す。
関連論文リスト
- TuneNSearch: a hybrid transfer learning and local search approach for solving vehicle routing problems [43.89334324926175]
TuneNSearchは、異なる車両ルーティング問題(VRP)に対処するためのハイブリッドトランスファー学習とローカル検索アプローチである。
われわれはまず,多目的VRP上で強化学習モデルを事前訓練し,その後,異なる変種に適応するための簡単な微調整を施した。
結果は、TuneNSearchが各VRPでトレーニングされた既存の最先端モデルよりも優れており、トレーニングエポックの5分の1しか必要としていないことを示している。
論文 参考訳(メタデータ) (2025-03-16T21:34:11Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Training Artificial Neural Networks by Coordinate Search Algorithm [0.20971479389679332]
本稿では、ニューラルネットワークのトレーニングのための勾配自由座標探索(CS)アルゴリズムの効率的なバージョンを提案する。
提案アルゴリズムは、微分不可能なアクティベーション関数で使用することができ、多目的/マルチロス問題に適合する。
ANNの重みに対する最適値を求めることは、大規模な最適化問題である。
論文 参考訳(メタデータ) (2024-02-20T01:47:25Z) - MGAS: Multi-Granularity Architecture Search for Trade-Off Between Model
Effectiveness and Efficiency [10.641875933652647]
我々は,多粒度アーキテクチャサーチ(MGAS)を導入し,効率的かつ効率的なニューラルネットワークを探索する。
各粒度レベル固有の離散化関数を学習し、進化したアーキテクチャに従って単位残率を適応的に決定する。
CIFAR-10、CIFAR-100、ImageNetの大規模な実験により、MGASはモデル性能とモデルサイズとのトレードオフを改善するために、他の最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-23T16:32:18Z) - Reparameterization through Spatial Gradient Scaling [69.27487006953852]
リパラメータ化は、学習中に畳み込み層を等価なマルチブランチ構造に変換することによって、ディープニューラルネットワークの一般化を改善することを目的としている。
本稿では,畳み込みネットワークにおける重み間の学習焦点を再分配する空間勾配スケーリング手法を提案する。
論文 参考訳(メタデータ) (2023-03-05T17:57:33Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Exploiting Invariance in Training Deep Neural Networks [4.169130102668252]
動物視覚システムの2つの基本的なメカニズムに触発され、ディープニューラルネットワークのトレーニングに不変性を与える特徴変換技術を紹介します。
結果として得られるアルゴリズムはパラメータチューニングを少なくし、初期学習率1.0でうまくトレーニングし、異なるタスクに簡単に一般化する。
ImageNet、MS COCO、Cityscapesデータセットでテストされた当社の提案手法は、トレーニングにより少ないイテレーションを必要とし、すべてのベースラインを大きなマージンで上回り、小規模および大規模のバッチサイズのトレーニングをシームレスに行い、画像分類、オブジェクト検出、セマンティックセグメンテーションの異なるコンピュータビジョンタスクに適用します。
論文 参考訳(メタデータ) (2021-03-30T19:18:31Z) - Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文 参考訳(メタデータ) (2021-02-20T23:26:58Z) - Model-free Representation Learning and Exploration in Low-rank MDPs [64.72023662543363]
低位mdpに対して,最初のモデルフリー表現学習アルゴリズムを提案する。
主要なアルゴリズムの貢献は新しいミニマックス表現の学習の目的です。
結果は複雑な環境にスケールする一般的な関数近似を収容できます。
論文 参考訳(メタデータ) (2021-02-14T00:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。