Fugu-MT 論文翻訳(概要): Optimizing transformer-based machine translation model for single GPU training: a hyperparameter ablation study

論文の概要: Optimizing transformer-based machine translation model for single GPU training: a hyperparameter ablation study

arxiv url: http://arxiv.org/abs/2308.06017v1
Date: Fri, 11 Aug 2023 08:47:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-14 14:34:30.279727
Title: Optimizing transformer-based machine translation model for single GPU training: a hyperparameter ablation study
Title（参考訳）: 単一GPUトレーニングのためのトランスフォーマーベース機械翻訳モデルの最適化:ハイパーパラメータアブレーション研究
Authors: Luv Verma, Ketaki N. Kolhatkar
Abstract要約: 機械翻訳タスクでは、モデル複雑性と性能の関係はしばしば線形であると仮定される。本研究は,シーケンス・ツー・シーケンス機械翻訳パイプラインにおけるアブレーションによるハイパーパラメータの効果を系統的に検討する。予想とは対照的に、我々の実験では、最大パラメータの組み合わせが必ずしも最も効果的であるとは限らないことが判明した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In machine translation tasks, the relationship between model complexity and performance is often presumed to be linear, driving an increase in the number of parameters and consequent demands for computational resources like multiple GPUs. To explore this assumption, this study systematically investigates the effects of hyperparameters through ablation on a sequence-to-sequence machine translation pipeline, utilizing a single NVIDIA A100 GPU. Contrary to expectations, our experiments reveal that combinations with the most parameters were not necessarily the most effective. This unexpected insight prompted a careful reduction in parameter sizes, uncovering "sweet spots" that enable training sophisticated models on a single GPU without compromising translation quality. The findings demonstrate an intricate relationship between hyperparameter selection, model size, and computational resource needs. The insights from this study contribute to the ongoing efforts to make machine translation more accessible and cost-effective, emphasizing the importance of precise hyperparameter tuning over mere scaling.
Abstract（参考訳）: 機械翻訳タスクでは、モデル複雑性と性能の関係はしばしば線形であると仮定され、複数のGPUのような計算リソースに対するパラメータの数とそれに伴う要求が増加する。そこで本研究では,nvidia a100 gpuを用いた逐次機械翻訳パイプラインにおけるアブレーションによるハイパーパラメータの影響を体系的に検討する。期待に反して,本実験では最多パラメータとの組合せが必ずしも最も効果的であるとは限らない。この予期せぬ洞察はパラメータサイズを慎重に削減し、翻訳品質を損なうことなく単一のGPU上で洗練されたモデルのトレーニングを可能にする"スイートスポット"を明らかにした。以上の結果から,ハイパーパラメータ選択,モデルサイズ,計算資源ニーズの関係が示唆された。本研究から得られた知見は,機械翻訳をよりアクセシブルで費用対効果の高いものにし,単なるスケーリングよりも正確なハイパーパラメータチューニングの重要性を強調している。

関連論文リスト

Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [56.58170370127227]
最適な学習速度は、モデルパラメータとデータサイズの両方とのパワー-法則関係に従うが、最適なバッチサイズは、主にデータサイズでスケールする。この研究は、Mixture-of-Expertsモデルや高密度トランスなど、異なるモデル形状と構造を統一する最初の研究である。
論文参考訳（メタデータ） (2025-03-06T18:58:29Z)
Hyper Compressed Fine-Tuning of Large Foundation Models with Quantum Inspired Adapters [0.0]
emphQuantum-Inspired Adaptersは、量子機械学習文学のハミング級量子回路にインスパイアされたPEFTアプローチである。提案するアダプタは,ベンチマークデータセットに大規模言語モデルと大規模視覚変換器を適用して検証する。
論文参考訳（メタデータ） (2025-02-10T13:06:56Z)
Sample complexity of data-driven tuning of model hyperparameters in neural networks with structured parameter-dependent dual function [24.457000214575245]
固定問題インスタンス上での実用関数の不連続性と発振を特徴付ける新しい手法を提案する。これは、実用関数の族における学習理論の複雑さが有界であることを示すのに使うことができる。
論文参考訳（メタデータ） (2025-01-23T15:10:51Z)
Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文参考訳（メタデータ） (2024-11-05T12:26:25Z)
Efficient Hyperparameter Importance Assessment for CNNs [1.7778609937758323]
本稿では,畳み込みニューラルネットワーク(CNN)におけるハイパーパラメータの重み付けを,N-RReliefFというアルゴリズムを用いて定量化する。我々は10の人気のある画像分類データセットから1万以上のCNNモデルをトレーニングし、広範囲にわたる研究を行う。
論文参考訳（メタデータ） (2024-10-11T15:47:46Z)
Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文参考訳（メタデータ） (2024-07-08T12:32:51Z)
ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文参考訳（メタデータ） (2024-05-30T17:26:02Z)
Optimal Kernel Tuning Parameter Prediction using Deep Sequence Models [0.44998333629984877]
本稿では,深部列列列モデルを用いて,計算カーネルを管理する最適チューニングパラメータを予測する手法を提案する。提案アルゴリズムは、AMD機械学習プリミティブライブラリであるMIOpenにおいて、様々な畳み込みカーネル上で90%以上の精度を達成することができる。
論文参考訳（メタデータ） (2024-04-15T22:25:54Z)
Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文参考訳（メタデータ） (2024-03-03T08:25:04Z)
Sliced gradient-enhanced Kriging for high-dimensional function approximation [2.8228516010000617]
Gradient-enhanced Kriging (GE-Kriging)は、高価な計算モデルを近似するために確立されたサロゲートモデリング技術である。固有相関行列のサイズのため、高次元問題に対して実用的でない傾向にある。 SGE-Kriging (Sliced GE-Kriging, SGE-Kriging) と呼ばれる新しい手法を開発し, 相関行列のサイズを小さくする。その結果,SGE-Krigingモデルでは,標準モデルに匹敵する精度と堅牢性を特徴とするが,トレーニングコストの低減が図られた。
論文参考訳（メタデータ） (2022-04-05T07:27:14Z)
PowerGraph: Using neural networks and principal components to multivariate statistical power trade-offs [0.0]
複数のモデルパラメータを持つ計画研究に対する事前統計パワー推定は本質的に多変量問題である。このような場合の明示的な解は非現実的であるか、解決できないかのいずれかであり、研究者はパワーをシミュレートする一般的な方法を残している。本稿では,様々なモデルパラメータの組み合わせに関する研究において,統計的パワーの効率的な推定とグラフ化について検討する。
論文参考訳（メタデータ） (2021-12-29T19:06:29Z)
MoEfication: Conditional Computation of Transformer Models for Efficient Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文参考訳（メタデータ） (2021-10-05T02:14:38Z)
Experimental Investigation and Evaluation of Model-based Hyperparameter Optimization [0.3058685580689604]
本稿では、一般的な機械学習アルゴリズムの理論的および実践的な結果の概要を述べる。 Rパッケージmlrは機械学習モデルの統一インターフェースとして使用される。
論文参考訳（メタデータ） (2021-07-19T11:37:37Z)
Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2020-02-21T05:00:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。