Fugu-MT 論文翻訳(概要): On the Sparsity of Neural Machine Translation Models

論文の概要: On the Sparsity of Neural Machine Translation Models

arxiv url: http://arxiv.org/abs/2010.02646v1
Date: Tue, 6 Oct 2020 11:47:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-10 06:56:21.278766
Title: On the Sparsity of Neural Machine Translation Models
Title（参考訳）: ニューラルマシン翻訳モデルのスパース性について
Authors: Yong Wang, Longyue Wang, Victor O.K. Li, Zhaopeng Tu
Abstract要約: 性能向上のために冗長パラメータを再利用できるかどうかを検討する。実験と分析は異なるデータセットとNTTアーキテクチャで体系的に行われる。
参考スコア（独自算出の注目度）: 65.49762428553345
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern neural machine translation (NMT) models employ a large number of parameters, which leads to serious over-parameterization and typically causes the underutilization of computational resources. In response to this problem, we empirically investigate whether the redundant parameters can be reused to achieve better performance. Experiments and analyses are systematically conducted on different datasets and NMT architectures. We show that: 1) the pruned parameters can be rejuvenated to improve the baseline model by up to +0.8 BLEU points; 2) the rejuvenated parameters are reallocated to enhance the ability of modeling low-level lexical information.
Abstract（参考訳）: 現代のニューラルマシン翻訳(NMT)モデルは多数のパラメータを使用し、深刻な過パラメータ化を引き起こし、典型的には計算資源の未利用を引き起こす。この問題への対応として,冗長パラメータを再利用できるかどうかを実証的に検討した。実験と分析は異なるデータセットとNTTアーキテクチャで体系的に行われる。ご覧の通りです 1) 刈り取ったパラメータは、最大+0.8 bleu点でベースラインモデルを改善するために再帰することができる。 2)低レベル語彙情報のモデリング能力を高めるため,再帰パラメータが再配置される。

関連論文リスト

Efficient Language Modeling for Low-Resource Settings with Hybrid RNN-Transformer Architectures [8.442206285783463]
トランスフォーマーベースの言語モデルは、最近テキスト生成における活発な研究の最前線にある。これらのモデルの進歩は、数十億のパラメータ数とペタフロップ/秒単位の計算要求によって、禁止的なトレーニングコストの価格で実現されている。注目層をフィードフォワードと準リカレントニューラルネットワーク層に選択的に置き換えることで,低データ方式におけるモデル性能向上のためのトランスフォーマーアーキテクチャについて検討する。
論文参考訳（メタデータ） (2025-02-02T01:05:09Z)
Modelling Mosquito Population Dynamics using PINN-derived Empirical Parameters [5.585625844344932]
我々は、逆パラメータを決定するためにPINNを用いた力学モデルにおける生物学的プロセスのパラメータ化の改善に焦点をあてる。 PINNは、物理法則、生物学的法則、化学法則を、観測または測定データに基づいて訓練されたニューラルネットワークに組み込む。 PINNモデルの性能についてより深く理解するために、PINNアーキテクチャの変更がフレームワークの性能に与える影響を調査するために、最終的な検証が使用された。
論文参考訳（メタデータ） (2024-12-10T13:51:48Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文参考訳（メタデータ） (2024-07-08T12:32:51Z)
Let's Focus on Neuron: Neuron-Level Supervised Fine-tuning for Large Language Model [43.107778640669544]
大型言語モデル(LLM)は、様々な行動や役割を示すニューロンで構成されている。最近の研究によると、全てのニューロンが異なるデータセットで活動しているわけではない。我々は,パラメータ学習の粒度を個々のニューロンに絞り込む新しいアプローチであるNeFT(Neuron-Level Fine-Tuning)を導入する。
論文参考訳（メタデータ） (2024-03-18T09:55:01Z)
Deep Learning for Fast Inference of Mechanistic Models' Parameters [0.28675177318965045]
本稿では,観測対象の力学モデルのパラメータを直接予測するために,ディープニューラルネットワーク(NN)を提案する。本稿では,ニューラルネットワークとメカニスティックモデルを組み合わせたトレーニング手法を検討する。ニューラルネットワークの推定値は、さらなる適合によってわずかに改善されているのに対して、これらの推定は、適合手順単独よりも測定精度が良いことがわかった。
論文参考訳（メタデータ） (2023-12-05T22:16:54Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
On the Influence of Enforcing Model Identifiability on Learning dynamics of Gaussian Mixture Models [14.759688428864159]
特異モデルからサブモデルを抽出する手法を提案する。本手法はトレーニング中のモデルの識別性を強制する。この手法がディープニューラルネットワークのようなより複雑なモデルにどのように適用できるかを示す。
論文参考訳（メタデータ） (2022-06-17T07:50:22Z)
MoEfication: Conditional Computation of Transformer Models for Efficient Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文参考訳（メタデータ） (2021-10-05T02:14:38Z)
Real-time Forecast Models for TBM Load Parameters Based on Machine Learning Methods [6.247628933072029]
本論文では, TBM運用データに基づいて機械学習(ML)手法を用いて, TBM負荷パラメータのリアルタイム予測モデルを構築する。モデル複雑性を低減し、一般化を改善するため、予測タスクの本質的特徴を抽出するために、最小絶対縮小および選択法(Lasso)を適用した。
論文参考訳（メタデータ） (2021-04-12T07:31:39Z)
Provably Efficient Neural Estimation of Structural Equation Model: An Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文参考訳（メタデータ） (2020-07-02T17:55:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。