論文の概要: Optimizing transformer-based machine translation model for single GPU
training: a hyperparameter ablation study
- arxiv url: http://arxiv.org/abs/2308.06017v1
- Date: Fri, 11 Aug 2023 08:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 14:34:30.279727
- Title: Optimizing transformer-based machine translation model for single GPU
training: a hyperparameter ablation study
- Title(参考訳): 単一GPUトレーニングのためのトランスフォーマーベース機械翻訳モデルの最適化:ハイパーパラメータアブレーション研究
- Authors: Luv Verma, Ketaki N. Kolhatkar
- Abstract要約: 機械翻訳タスクでは、モデル複雑性と性能の関係はしばしば線形であると仮定される。
本研究は,シーケンス・ツー・シーケンス機械翻訳パイプラインにおけるアブレーションによるハイパーパラメータの効果を系統的に検討する。
予想とは対照的に、我々の実験では、最大パラメータの組み合わせが必ずしも最も効果的であるとは限らないことが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In machine translation tasks, the relationship between model complexity and
performance is often presumed to be linear, driving an increase in the number
of parameters and consequent demands for computational resources like multiple
GPUs. To explore this assumption, this study systematically investigates the
effects of hyperparameters through ablation on a sequence-to-sequence machine
translation pipeline, utilizing a single NVIDIA A100 GPU. Contrary to
expectations, our experiments reveal that combinations with the most parameters
were not necessarily the most effective. This unexpected insight prompted a
careful reduction in parameter sizes, uncovering "sweet spots" that enable
training sophisticated models on a single GPU without compromising translation
quality. The findings demonstrate an intricate relationship between
hyperparameter selection, model size, and computational resource needs. The
insights from this study contribute to the ongoing efforts to make machine
translation more accessible and cost-effective, emphasizing the importance of
precise hyperparameter tuning over mere scaling.
- Abstract(参考訳): 機械翻訳タスクでは、モデル複雑性と性能の関係はしばしば線形であると仮定され、複数のGPUのような計算リソースに対するパラメータの数とそれに伴う要求が増加する。
そこで本研究では,nvidia a100 gpuを用いた逐次機械翻訳パイプラインにおけるアブレーションによるハイパーパラメータの影響を体系的に検討する。
期待に反して,本実験では最多パラメータとの組合せが必ずしも最も効果的であるとは限らない。
この予期せぬ洞察はパラメータサイズを慎重に削減し、翻訳品質を損なうことなく単一のGPU上で洗練されたモデルのトレーニングを可能にする"スイートスポット"を明らかにした。
以上の結果から,ハイパーパラメータ選択,モデルサイズ,計算資源ニーズの関係が示唆された。
本研究から得られた知見は,機械翻訳をよりアクセシブルで費用対効果の高いものにし,単なるスケーリングよりも正確なハイパーパラメータチューニングの重要性を強調している。
関連論文リスト
- Optimal Kernel Tuning Parameter Prediction using Deep Sequence Models [0.44998333629984877]
本稿では,深部列列列モデルを用いて,計算カーネルを管理する最適チューニングパラメータを予測する手法を提案する。
提案アルゴリズムは、AMD機械学習プリミティブライブラリであるMIOpenにおいて、様々な畳み込みカーネル上で90%以上の精度を達成することができる。
論文 参考訳(メタデータ) (2024-04-15T22:25:54Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Sliced gradient-enhanced Kriging for high-dimensional function
approximation [2.8228516010000617]
Gradient-enhanced Kriging (GE-Kriging)は、高価な計算モデルを近似するために確立されたサロゲートモデリング技術である。
固有相関行列のサイズのため、高次元問題に対して実用的でない傾向にある。
SGE-Kriging (Sliced GE-Kriging, SGE-Kriging) と呼ばれる新しい手法を開発し, 相関行列のサイズを小さくする。
その結果,SGE-Krigingモデルでは,標準モデルに匹敵する精度と堅牢性を特徴とするが,トレーニングコストの低減が図られた。
論文 参考訳(メタデータ) (2022-04-05T07:27:14Z) - Unified Multivariate Gaussian Mixture for Efficient Neural Image
Compression [151.3826781154146]
先行変数と超優先度を持つ潜伏変数は、変動画像圧縮において重要な問題である。
ベクトル化された視点で潜伏変数を観察する際、相関関係や相関関係は存在する。
当社のモデルでは、速度歪曲性能が向上し、圧縮速度が3.18倍に向上した。
論文 参考訳(メタデータ) (2022-03-21T11:44:17Z) - PowerGraph: Using neural networks and principal components to
multivariate statistical power trade-offs [0.0]
複数のモデルパラメータを持つ計画研究に対する事前統計パワー推定は本質的に多変量問題である。
このような場合の明示的な解は非現実的であるか、解決できないかのいずれかであり、研究者はパワーをシミュレートする一般的な方法を残している。
本稿では,様々なモデルパラメータの組み合わせに関する研究において,統計的パワーの効率的な推定とグラフ化について検討する。
論文 参考訳(メタデータ) (2021-12-29T19:06:29Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Experimental Investigation and Evaluation of Model-based Hyperparameter
Optimization [0.3058685580689604]
本稿では、一般的な機械学習アルゴリズムの理論的および実践的な結果の概要を述べる。
Rパッケージmlrは機械学習モデルの統一インターフェースとして使用される。
論文 参考訳(メタデータ) (2021-07-19T11:37:37Z) - VisEvol: Visual Analytics to Support Hyperparameter Search through Evolutionary Optimization [4.237343083490243]
機械学習(ML)モデルのトレーニングフェーズでは、通常、いくつかのハイパーパラメータを設定する必要がある。
本稿では、ハイパーパラメータのインタラクティブな探索と、この進化過程への介入を支援するビジュアル分析ツールVisEvolを紹介する。
VisEvolの実用性と適用性は,2つのユースケースと,ツールの有効性を評価するML専門家へのインタビューで実証された。
論文 参考訳(メタデータ) (2020-12-02T13:43:37Z) - RatE: Relation-Adaptive Translating Embedding for Knowledge Graph
Completion [51.64061146389754]
複素空間における新たな重み付き積の上に構築された関係適応変換関数を提案する。
次に、関係適応型翻訳埋め込み(RatE)アプローチを示し、各グラフを3倍にスコアする。
論文 参考訳(メタデータ) (2020-10-10T01:30:30Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。