論文の概要: Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning
- arxiv url: http://arxiv.org/abs/2411.03042v1
- Date: Tue, 05 Nov 2024 12:26:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:00:12.891975
- Title: Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning
- Title(参考訳): 指数移動平均係数学習を用いた予測・コレクタ強化変圧器
- Authors: Bei Li, Tong Zheng, Rui Wang, Jiahao Liu, Qingyan Guo, Junliang Guo, Xu Tan, Tong Xiao, Jingbo Zhu, Jingang Wang, Xunliang Cai,
- Abstract要約: トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
- 参考スコア(独自算出の注目度): 73.73967342609603
- License:
- Abstract: Residual networks, as discrete approximations of Ordinary Differential Equations (ODEs), have inspired significant advancements in neural network design, including multistep methods, high-order methods, and multi-particle dynamical systems. The precision of the solution to ODEs significantly affects parameter optimization, thereby impacting model performance. In this work, we present a series of advanced explorations of Transformer architecture design to minimize the error compared to the true ``solution.'' First, we introduce a predictor-corrector learning framework to minimize truncation errors, which consists of a high-order predictor and a multistep corrector. Second, we propose an exponential moving average-based coefficient learning method to strengthen our higher-order predictor. Extensive experiments on large-scale machine translation, abstractive summarization, language modeling, and natural language understanding benchmarks demonstrate the superiority of our approach. On the WMT'14 English-German and English-French tasks, our model achieved BLEU scores of 30.95 and 44.27, respectively. Furthermore, on the OPUS multilingual machine translation task, our model surpasses a robust 3.8B DeepNet by an average of 2.9 SacreBLEU, using only 1/3 parameters. Notably, it also beats LLama models by 5.7 accuracy points on the LM Harness Evaluation.
- Abstract(参考訳): 残留ネットワークは、通常微分方程式(ODE)の離散近似として、多段階法、高次法、多粒子力学系を含む、ニューラルネットワーク設計の大幅な進歩にインスピレーションを与えている。
ODEに対する解の精度はパラメータ最適化に大きく影響し、それによってモデルの性能に影響を及ぼす。
本稿では,Transformer アーキテクチャの設計について,実際の ``solution' と比較して誤差を最小限に抑えるために,一連の先進的な探索を行った。
まず,高次予測器と多段補正器から構成されるトランケーションエラーを最小限に抑えるための予測器・相関学習フレームワークを提案する。
第2に,高次予測器を強化するために,指数関数移動平均値に基づく係数学習法を提案する。
大規模機械翻訳、抽象的な要約、言語モデリング、自然言語理解ベンチマークに関する大規模な実験は、我々のアプローチの優位性を示している。
WMT'14では, BLEUスコアは30.95点, 44.27点であった。
さらに,OPUS多言語機械翻訳タスクでは,3.8BのDeepNetを平均2.9のSacreBLEUで上回り,1/3のパラメータしか使用していない。
また、LM Harness EvaluationではLLamaモデルに5.7の精度で勝っている。
関連論文リスト
- Human Evaluation of English--Irish Transformer-Based NMT [2.648836772989769]
ベストパフォーマンスのTransformerシステムは、RNNベースのモデルと比較して精度と誤差を著しく低減する。
Google Translateに対してベンチマークを行ったところ、我々の翻訳エンジンは大幅に改善された。
論文 参考訳(メタデータ) (2024-03-04T11:45:46Z) - DF2: Distribution-Free Decision-Focused Learning [53.2476224456902]
決定中心学習(DFL)は近年,予測最適化問題に対する強力なアプローチとして出現している。
既存のエンドツーエンドDFL法は、モデル誤差、サンプル平均近似誤差、予測対象の分布に基づくパラメータ化の3つの重大なボトルネックによって妨げられている。
DF2は,これら3つのボトルネックに明示的に対処するために設計された,初となるテキストフリーな意思決定型学習手法である。
論文 参考訳(メタデータ) (2023-08-11T00:44:46Z) - INT2.1: Towards Fine-Tunable Quantized Large Language Models with Error
Correction through Low-Rank Adaptation [5.837035655563323]
本稿では,微調整されたVRAM要求を劇的に削減し,量子化された大言語モデルにおける量子化誤差を補正する手法を提案する。
提案手法は, 最大5.6倍のメモリ要求を削減し, 一般向けラップトップ上で70億パラメータのLLM(Large Language Model)を微調整することができる。
論文 参考訳(メタデータ) (2023-06-13T22:25:35Z) - Non-parametric, Nearest-neighbor-assisted Fine-tuning for Neural Machine
Translation [22.59222643493867]
非パラメトリック k-nearest-neighborアルゴリズムは、最近、言語モデルや機械翻訳デコーダなどの生成モデルを支援するために普及している。
このような非パラメトリックモデルが、kNN予測の統計を取り入れることで、微調整段階における機械翻訳モデルを改善することができるかどうかを考察する。
論文 参考訳(メタデータ) (2023-05-23T03:44:06Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Scaling Laws for Neural Machine Translation [21.76567580425173]
モデルサイズ関数としてのクロスエントロピー損失は, あるスケーリング法則に従うことを示す。
また,クロスエントロピー損失と翻訳の質との関係についても検討した。
論文 参考訳(メタデータ) (2021-09-16T06:15:20Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。