論文の概要: Improving Line Search Methods for Large Scale Neural Network Training
- arxiv url: http://arxiv.org/abs/2403.18519v1
- Date: Wed, 27 Mar 2024 12:50:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 16:58:17.651164
- Title: Improving Line Search Methods for Large Scale Neural Network Training
- Title(参考訳): 大規模ニューラルネットワーク学習のための線探索法の改良
- Authors: Philip Kenneweg, Tristan Kenneweg, Barbara Hammer,
- Abstract要約: 我々は,最先端のライン探索手法における既存の問題を特定し,拡張を提案し,その有効性を厳格に評価する。
我々は,ADAMからの運動量項を探索方向に統合することにより,Armijoライン探索を改善し,大規模学習を効率化する。
本評価では,NLPおよび画像データの領域におけるトランスフォーマーとCNNに着目した。
- 参考スコア(独自算出の注目度): 4.862490782515929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent studies, line search methods have shown significant improvements in the performance of traditional stochastic gradient descent techniques, eliminating the need for a specific learning rate schedule. In this paper, we identify existing issues in state-of-the-art line search methods, propose enhancements, and rigorously evaluate their effectiveness. We test these methods on larger datasets and more complex data domains than before. Specifically, we improve the Armijo line search by integrating the momentum term from ADAM in its search direction, enabling efficient large-scale training, a task that was previously prone to failure using Armijo line search methods. Our optimization approach outperforms both the previous Armijo implementation and tuned learning rate schedules for Adam. Our evaluation focuses on Transformers and CNNs in the domains of NLP and image data. Our work is publicly available as a Python package, which provides a hyperparameter free Pytorch optimizer.
- Abstract(参考訳): 近年,線形探索法は従来の確率勾配降下法の性能を著しく向上させ,特定の学習率スケジュールの必要性を排除している。
本稿では,最先端のラインサーチ手法における既存の課題を特定し,改良を提案し,その妥当性を厳格に評価する。
より大規模なデータセットとより複雑なデータドメインでこれらの手法をテストする。
具体的には,ADAMからの運動量項を探索方向に統合することにより,Armijoライン探索の高速化を実現し,従来はArmijoライン探索法で失敗する傾向にあった,大規模学習の効率化を実現した。
最適化手法は、Adamの以前のArmijo実装と調整された学習率スケジュールの両方を上回ります。
本評価では,NLPおよび画像データの領域におけるトランスフォーマーとCNNに着目した。
当社の作業は,ハイパーパラメータフリーなPytorchオプティマイザを提供するPythonパッケージとして公開されています。
関連論文リスト
- Learning the Regularization Strength for Deep Fine-Tuning via a Data-Emphasized Variational Objective [4.453137996095194]
グリッド検索は計算コストが高く、検証セットを彫り出す必要があり、実践者は候補値を指定する必要がある。
提案手法はグリッド探索の3つの欠点をすべて克服する。
いくつかのデータセットにおける画像分類タスクの有効性を実証し,既存の手法に匹敵するホールドアウト精度を得た。
論文 参考訳(メタデータ) (2024-10-25T16:32:11Z) - No learning rates needed: Introducing SALSA -- Stable Armijo Line Search Adaptation [4.45108516823267]
我々は,現在最先端のライン探索手法の問題点を特定し,改良を提案し,その妥当性を厳格に評価する。
我々はこれらの手法を従来よりも桁違いに複雑なデータ領域で評価する。
私たちの作業はPythonパッケージで公開されており、シンプルなPytorchを提供しています。
論文 参考訳(メタデータ) (2024-07-30T08:47:02Z) - Faster Convergence for Transformer Fine-tuning with Line Search Methods [6.138522679357102]
本研究では,新しいトランスフォーマーアーキテクチャとデータセットドメインへの行探索手法の拡張に成功した。
我々の作業はpythonパッケージとして公開されており、任意のネットワークアーキテクチャと互換性のある超自由勾配のpytorchを提供する。
論文 参考訳(メタデータ) (2024-03-27T12:35:23Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文 参考訳(メタデータ) (2023-11-16T10:42:58Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Reinforcement Learning in the Wild: Scalable RL Dispatching Algorithm
Deployed in Ridehailing Marketplace [12.298997392937876]
本研究では,強化学習に基づくリアルタイムディスパッチアルゴリズムを提案する。
ディディのA/Bテストの運営下にある複数の都市でオンラインに展開され、主要な国際市場の一つで展開されている。
デプロイされたアルゴリズムは、A/Bテストによるドライバーの総収入を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-02-10T16:07:17Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Learning the Step-size Policy for the Limited-Memory
Broyden-Fletcher-Goldfarb-Shanno Algorithm [3.7470451129384825]
本稿では,L-BFGSアルゴリズムのステップサイズポリシの学習方法について考察する。
入力として電流勾配の局所的な情報を用いたニューラルネットワークアーキテクチャを提案する。
ステップ長ポリシは、同様の最適化問題のデータから学習され、目的関数のさらなる評価を回避し、出力ステップが予め定義された間隔内に留まることを保証します。
論文 参考訳(メタデータ) (2020-10-03T09:34:03Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。