論文の概要: Faster Convergence for Transformer Fine-tuning with Line Search Methods
- arxiv url: http://arxiv.org/abs/2403.18506v1
- Date: Wed, 27 Mar 2024 12:35:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 17:08:03.940610
- Title: Faster Convergence for Transformer Fine-tuning with Line Search Methods
- Title(参考訳): ラインサーチ法による変圧器微調整の高速収束
- Authors: Philip Kenneweg, Leonardo Galli, Tristan Kenneweg, Barbara Hammer,
- Abstract要約: 本研究では,新しいトランスフォーマーアーキテクチャとデータセットドメインへの行探索手法の拡張に成功した。
我々の作業はpythonパッケージとして公開されており、任意のネットワークアーキテクチャと互換性のある超自由勾配のpytorchを提供する。
- 参考スコア(独自算出の注目度): 6.138522679357102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have shown that line search methods greatly increase performance of traditional stochastic gradient descent methods on a variety of datasets and architectures [1], [2]. In this work we succeed in extending line search methods to the novel and highly popular Transformer architecture and dataset domains in natural language processing. More specifically, we combine the Armijo line search with the Adam optimizer and extend it by subdividing the networks architecture into sensible units and perform the line search separately on these local units. Our optimization method outperforms the traditional Adam optimizer and achieves significant performance improvements for small data sets or small training budgets, while performing equal or better for other tested cases. Our work is publicly available as a python package, which provides a hyperparameter-free pytorch optimizer that is compatible with arbitrary network architectures.
- Abstract(参考訳): 近年の研究では, 線形探索法は, 様々なデータセットやアーキテクチャにおいて, 従来の確率勾配降下法の性能を大幅に向上させることが示されている [1], [2]。
本研究では,自然言語処理における新しいトランスフォーマーアーキテクチャやデータセットドメインへの行探索手法の拡張に成功している。
より具体的には、Armijoライン探索とAdamオプティマイザを組み合わせて、ネットワークアーキテクチャを意味のある単位に分割し、これらの局所単位を別々に行探索することで拡張する。
我々の最適化手法は従来のAdamオプティマイザよりも優れており、小規模なデータセットや訓練予算の大幅なパフォーマンス向上を実現しています。
我々の作業はpythonパッケージとして公開されており、任意のネットワークアーキテクチャと互換性のあるハイパーパラメータフリーのpytorchオプティマイザを提供する。
関連論文リスト
- CaAdam: Improving Adam optimizer using connection aware methods [0.0]
我々はAdamにインスパイアされた新しい手法を導入し、収束速度を高め、損失関数の最小化を実現する。
Adamを含む従来のプロキシは、アーキテクチャの詳細を考慮せずに、ニューラルネットワーク全体で均一またはグローバルに調整された学習率を適用している。
我々のアルゴリズムであるCaAdamは、アーキテクチャ情報を慎重に設計することで、接続対応の最適化を導入することで、見落としている領域を探索する。
論文 参考訳(メタデータ) (2024-10-31T17:59:46Z) - No learning rates needed: Introducing SALSA -- Stable Armijo Line Search Adaptation [4.45108516823267]
我々は,現在最先端のライン探索手法の問題点を特定し,改良を提案し,その妥当性を厳格に評価する。
我々はこれらの手法を従来よりも桁違いに複雑なデータ領域で評価する。
私たちの作業はPythonパッケージで公開されており、シンプルなPytorchを提供しています。
論文 参考訳(メタデータ) (2024-07-30T08:47:02Z) - Improving Line Search Methods for Large Scale Neural Network Training [4.862490782515929]
我々は,最先端のライン探索手法における既存の問題を特定し,拡張を提案し,その有効性を厳格に評価する。
我々は,ADAMからの運動量項を探索方向に統合することにより,Armijoライン探索を改善し,大規模学習を効率化する。
本評価では,NLPおよび画像データの領域におけるトランスフォーマーとCNNに着目した。
論文 参考訳(メタデータ) (2024-03-27T12:50:27Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - An algorithmic framework for the optimization of deep neural networks architectures and hyperparameters [0.23301643766310373]
本稿では,効率的なディープニューラルネットワークを自動生成するアルゴリズムフレームワークを提案する。
このフレームワークは、進化的有向非巡回グラフ(DAG)に基づいている。
畳み込み(convolutions)、再帰(recurrentence)、密集層( dense layer)といった古典的な操作の混合を可能にするだけでなく、自己注意(self-attention)のようなより新しい操作も可能である。
論文 参考訳(メタデータ) (2023-02-27T08:00:33Z) - Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。
基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。
我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文 参考訳(メタデータ) (2022-09-27T17:51:31Z) - Shapley-NAS: Discovering Operation Contribution for Neural Architecture
Search [96.20505710087392]
ニューラルアーキテクチャ探索のための演算寄与度(Shapley-NAS)を評価するためのShapley値に基づく手法を提案する。
提案手法は,光探索コストに比例して最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-20T14:41:49Z) - Pruning-as-Search: Efficient Neural Architecture Search via Channel
Pruning and Structural Reparameterization [50.50023451369742]
プルーニング・アズ・サーチ(Pruning-as-Search、PaS)は、必要なサブネットワークを自動的に効率的に検索するエンドツーエンドのプルーニング手法である。
提案したアーキテクチャは,ImageNet-1000分類タスクにおいて,1.0%$ Top-1精度で先行技術より優れていた。
論文 参考訳(メタデータ) (2022-06-02T17:58:54Z) - DAAS: Differentiable Architecture and Augmentation Policy Search [107.53318939844422]
この研究は、ニューラルネットワークとデータ拡張のカップリングの可能性を検討し、それらを共同で検索する効果的なアルゴリズムを提案する。
CIFAR-10では97.91%、ImageNetデータセットでは76.6%の精度で97.91%の精度を達成し、検索アルゴリズムの優れた性能を示している。
論文 参考訳(メタデータ) (2021-09-30T17:15:17Z) - Rethinking Architecture Selection in Differentiable NAS [74.61723678821049]
微分可能なニューラルアーキテクチャ探索は、その探索効率と簡易性において最も人気のあるNAS手法の1つである。
本稿では,各操作がスーパーネットに与える影響を直接測定する摂動に基づくアーキテクチャ選択を提案する。
提案手法により,DARTSの故障モードを大幅に緩和できることがわかった。
論文 参考訳(メタデータ) (2021-08-10T00:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。