論文の概要: No learning rates needed: Introducing SALSA -- Stable Armijo Line Search Adaptation
- arxiv url: http://arxiv.org/abs/2407.20650v1
- Date: Tue, 30 Jul 2024 08:47:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 17:49:53.108960
- Title: No learning rates needed: Introducing SALSA -- Stable Armijo Line Search Adaptation
- Title(参考訳): 学習速度は不要: SALSA -- 安定Armijo Line Search Adaptationの導入
- Authors: Philip Kenneweg, Tristan Kenneweg, Fabian Fumagalli, Barbara Hammer,
- Abstract要約: 我々は,現在最先端のライン探索手法の問題点を特定し,改良を提案し,その妥当性を厳格に評価する。
我々はこれらの手法を従来よりも桁違いに複雑なデータ領域で評価する。
私たちの作業はPythonパッケージで公開されており、シンプルなPytorchを提供しています。
- 参考スコア(独自算出の注目度): 4.45108516823267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent studies, line search methods have been demonstrated to significantly enhance the performance of conventional stochastic gradient descent techniques across various datasets and architectures, while making an otherwise critical choice of learning rate schedule superfluous. In this paper, we identify problems of current state-of-the-art of line search methods, propose enhancements, and rigorously assess their effectiveness. Furthermore, we evaluate these methods on orders of magnitude larger datasets and more complex data domains than previously done. More specifically, we enhance the Armijo line search method by speeding up its computation and incorporating a momentum term into the Armijo criterion, making it better suited for stochastic mini-batching. Our optimization approach outperforms both the previous Armijo implementation and a tuned learning rate schedule for the Adam and SGD optimizers. Our evaluation covers a diverse range of architectures, such as Transformers, CNNs, and MLPs, as well as data domains, including NLP and image data. Our work is publicly available as a Python package, which provides a simple Pytorch optimizer.
- Abstract(参考訳): 近年, 線形探索法は, 従来の確率勾配降下法の性能を, 様々なデータセットやアーキテクチャで著しく向上させるとともに, 学習率の過度な選択を行なおうとしている。
本稿では,現状のライン探索手法の問題点を特定し,改良を提案し,その妥当性を厳格に評価する。
さらに,これらの手法を,従来よりも大規模なデータセットと複雑なデータドメインの順序で評価する。
具体的には,その計算を高速化し,Armijo基準に運動量項を組み込むことにより,Armijoライン探索法を強化し,確率的ミニバッチに適している。
最適化手法は,AdamとSGDの最適化において,以前のArmijoの実装と調整された学習率スケジュールよりも優れていた。
我々の評価では、トランスフォーマー、CNN、MPP、NLPや画像データを含むデータドメインなど、さまざまなアーキテクチャをカバーしています。
私たちの作業はPythonパッケージとして公開されており、シンプルなPytorchオプティマイザを提供します。
関連論文リスト
- CANDY: A Benchmark for Continuous Approximate Nearest Neighbor Search with Dynamic Data Ingestion [8.036012885171166]
我々は、動的データ取り込みを伴う連続近似Nearest Neighbor Searchに適したベンチマークであるCANDYを紹介する。
CANDYは幅広いAKNNアルゴリズムを包括的に評価し、機械学習駆動推論のような高度な最適化を統合する。
多様なデータセットに対する評価では、より単純なAKNNベースラインが、リコールやレイテンシの点で、より複雑な選択肢を上回ることが示されている。
論文 参考訳(メタデータ) (2024-06-28T04:46:11Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Improving Line Search Methods for Large Scale Neural Network Training [4.862490782515929]
我々は,最先端のライン探索手法における既存の問題を特定し,拡張を提案し,その有効性を厳格に評価する。
我々は,ADAMからの運動量項を探索方向に統合することにより,Armijoライン探索を改善し,大規模学習を効率化する。
本評価では,NLPおよび画像データの領域におけるトランスフォーマーとCNNに着目した。
論文 参考訳(メタデータ) (2024-03-27T12:50:27Z) - Faster Convergence for Transformer Fine-tuning with Line Search Methods [6.138522679357102]
本研究では,新しいトランスフォーマーアーキテクチャとデータセットドメインへの行探索手法の拡張に成功した。
我々の作業はpythonパッケージとして公開されており、任意のネットワークアーキテクチャと互換性のある超自由勾配のpytorchを提供する。
論文 参考訳(メタデータ) (2024-03-27T12:35:23Z) - Stochastic Gradient Descent with Preconditioned Polyak Step-size [1.3300175008796402]
Gradient Descent with Polyak Step-size (SPS)は、データセットの学習率を微調整する必要性を軽減する更新ルールを提供する方法である。
本稿では,Hutchinson'sやAda'sなどのプレコンディショニング技術を用いたSPSの拡張を提案する。
論文 参考訳(メタデータ) (2023-10-03T14:36:05Z) - Learning Large-scale Neural Fields via Context Pruned Meta-Learning [60.93679437452872]
本稿では,大規模ニューラルネットワーク学習のための最適化に基づくメタラーニング手法を提案する。
メタテスト時間における勾配再スケーリングは、非常に高品質なニューラルネットワークの学習を可能にすることを示す。
我々のフレームワークは、モデルに依存しない、直感的で、実装が容易であり、幅広い信号に対する大幅な再構成改善を示す。
論文 参考訳(メタデータ) (2023-02-01T17:32:16Z) - Shapley-NAS: Discovering Operation Contribution for Neural Architecture
Search [96.20505710087392]
ニューラルアーキテクチャ探索のための演算寄与度(Shapley-NAS)を評価するためのShapley値に基づく手法を提案する。
提案手法は,光探索コストに比例して最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-20T14:41:49Z) - ZARTS: On Zero-order Optimization for Neural Architecture Search [94.41017048659664]
微分可能なアーキテクチャサーチ (DARTS) は、NASの高効率性のため、一般的なワンショットパラダイムである。
この作業はゼロオーダーの最適化に変わり、上記の近似を強制せずに探索するための新しいNASスキームであるZARTSを提案する。
特に、12ベンチマークの結果は、DARTSの性能が低下するZARTSの顕著な堅牢性を検証する。
論文 参考訳(メタデータ) (2021-10-10T09:35:15Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Learning the Step-size Policy for the Limited-Memory
Broyden-Fletcher-Goldfarb-Shanno Algorithm [3.7470451129384825]
本稿では,L-BFGSアルゴリズムのステップサイズポリシの学習方法について考察する。
入力として電流勾配の局所的な情報を用いたニューラルネットワークアーキテクチャを提案する。
ステップ長ポリシは、同様の最適化問題のデータから学習され、目的関数のさらなる評価を回避し、出力ステップが予め定義された間隔内に留まることを保証します。
論文 参考訳(メタデータ) (2020-10-03T09:34:03Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。