論文の概要: Optimizing transformer-based machine translation model for single GPU
training: a hyperparameter ablation study
- arxiv url: http://arxiv.org/abs/2308.06017v1
- Date: Fri, 11 Aug 2023 08:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 14:34:30.279727
- Title: Optimizing transformer-based machine translation model for single GPU
training: a hyperparameter ablation study
- Title(参考訳): 単一GPUトレーニングのためのトランスフォーマーベース機械翻訳モデルの最適化:ハイパーパラメータアブレーション研究
- Authors: Luv Verma, Ketaki N. Kolhatkar
- Abstract要約: 機械翻訳タスクでは、モデル複雑性と性能の関係はしばしば線形であると仮定される。
本研究は,シーケンス・ツー・シーケンス機械翻訳パイプラインにおけるアブレーションによるハイパーパラメータの効果を系統的に検討する。
予想とは対照的に、我々の実験では、最大パラメータの組み合わせが必ずしも最も効果的であるとは限らないことが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In machine translation tasks, the relationship between model complexity and
performance is often presumed to be linear, driving an increase in the number
of parameters and consequent demands for computational resources like multiple
GPUs. To explore this assumption, this study systematically investigates the
effects of hyperparameters through ablation on a sequence-to-sequence machine
translation pipeline, utilizing a single NVIDIA A100 GPU. Contrary to
expectations, our experiments reveal that combinations with the most parameters
were not necessarily the most effective. This unexpected insight prompted a
careful reduction in parameter sizes, uncovering "sweet spots" that enable
training sophisticated models on a single GPU without compromising translation
quality. The findings demonstrate an intricate relationship between
hyperparameter selection, model size, and computational resource needs. The
insights from this study contribute to the ongoing efforts to make machine
translation more accessible and cost-effective, emphasizing the importance of
precise hyperparameter tuning over mere scaling.
- Abstract(参考訳): 機械翻訳タスクでは、モデル複雑性と性能の関係はしばしば線形であると仮定され、複数のGPUのような計算リソースに対するパラメータの数とそれに伴う要求が増加する。
そこで本研究では,nvidia a100 gpuを用いた逐次機械翻訳パイプラインにおけるアブレーションによるハイパーパラメータの影響を体系的に検討する。
期待に反して,本実験では最多パラメータとの組合せが必ずしも最も効果的であるとは限らない。
この予期せぬ洞察はパラメータサイズを慎重に削減し、翻訳品質を損なうことなく単一のGPU上で洗練されたモデルのトレーニングを可能にする"スイートスポット"を明らかにした。
以上の結果から,ハイパーパラメータ選択,モデルサイズ,計算資源ニーズの関係が示唆された。
本研究から得られた知見は,機械翻訳をよりアクセシブルで費用対効果の高いものにし,単なるスケーリングよりも正確なハイパーパラメータチューニングの重要性を強調している。
関連論文リスト
- Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - Efficient Hyperparameter Importance Assessment for CNNs [1.7778609937758323]
本稿では,畳み込みニューラルネットワーク(CNN)におけるハイパーパラメータの重み付けを,N-RReliefFというアルゴリズムを用いて定量化する。
我々は10の人気のある画像分類データセットから1万以上のCNNモデルをトレーニングし、広範囲にわたる研究を行う。
論文 参考訳(メタデータ) (2024-10-11T15:47:46Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文 参考訳(メタデータ) (2024-05-30T17:26:02Z) - Optimal Kernel Tuning Parameter Prediction using Deep Sequence Models [0.44998333629984877]
本稿では,深部列列列モデルを用いて,計算カーネルを管理する最適チューニングパラメータを予測する手法を提案する。
提案アルゴリズムは、AMD機械学習プリミティブライブラリであるMIOpenにおいて、様々な畳み込みカーネル上で90%以上の精度を達成することができる。
論文 参考訳(メタデータ) (2024-04-15T22:25:54Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - Sliced gradient-enhanced Kriging for high-dimensional function
approximation [2.8228516010000617]
Gradient-enhanced Kriging (GE-Kriging)は、高価な計算モデルを近似するために確立されたサロゲートモデリング技術である。
固有相関行列のサイズのため、高次元問題に対して実用的でない傾向にある。
SGE-Kriging (Sliced GE-Kriging, SGE-Kriging) と呼ばれる新しい手法を開発し, 相関行列のサイズを小さくする。
その結果,SGE-Krigingモデルでは,標準モデルに匹敵する精度と堅牢性を特徴とするが,トレーニングコストの低減が図られた。
論文 参考訳(メタデータ) (2022-04-05T07:27:14Z) - PowerGraph: Using neural networks and principal components to
multivariate statistical power trade-offs [0.0]
複数のモデルパラメータを持つ計画研究に対する事前統計パワー推定は本質的に多変量問題である。
このような場合の明示的な解は非現実的であるか、解決できないかのいずれかであり、研究者はパワーをシミュレートする一般的な方法を残している。
本稿では,様々なモデルパラメータの組み合わせに関する研究において,統計的パワーの効率的な推定とグラフ化について検討する。
論文 参考訳(メタデータ) (2021-12-29T19:06:29Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Experimental Investigation and Evaluation of Model-based Hyperparameter
Optimization [0.3058685580689604]
本稿では、一般的な機械学習アルゴリズムの理論的および実践的な結果の概要を述べる。
Rパッケージmlrは機械学習モデルの統一インターフェースとして使用される。
論文 参考訳(メタデータ) (2021-07-19T11:37:37Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。