論文の概要: Training Flexible Depth Model by Multi-Task Learning for Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2010.08265v1
- Date: Fri, 16 Oct 2020 09:37:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 20:13:22.764845
- Title: Training Flexible Depth Model by Multi-Task Learning for Neural Machine
Translation
- Title(参考訳): ニューラルマシン翻訳のためのマルチタスク学習によるフレキシブル深層モデルの学習
- Authors: Qiang Wang, Tong Xiao, Jingbo Zhu
- Abstract要約: フレキシブル深度モデルの学習にマルチタスク学習を用いることを提案する。
実験結果から,提案手法は24深度構成での復号化を同時にサポートできることが示唆された。
- 参考スコア(独自算出の注目度): 42.58111799683135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The standard neural machine translation model can only decode with the same
depth configuration as training. Restricted by this feature, we have to deploy
models of various sizes to maintain the same translation latency, because the
hardware conditions on different terminal devices (e.g., mobile phones) may
vary greatly. Such individual training leads to increased model maintenance
costs and slower model iterations, especially for the industry. In this work,
we propose to use multi-task learning to train a flexible depth model that can
adapt to different depth configurations during inference. Experimental results
show that our approach can simultaneously support decoding in 24 depth
configurations and is superior to the individual training and another flexible
depth model training method -- LayerDrop.
- Abstract(参考訳): 標準的なニューラルマシン翻訳モデルは、トレーニングと同じ深さ設定でしかデコードできない。
この機能によって制限されるため、異なる端末デバイス(携帯電話など)のハードウェア条件が大きく異なるため、同じ翻訳レイテンシを維持するために、さまざまなサイズのモデルをデプロイする必要があります。
このような個別のトレーニングは、特に業界において、モデルのメンテナンスコストの増大とモデルのイテレーションの遅れにつながる。
本研究では、マルチタスク学習を用いて、推論中に異なる深度構成に適応できるフレキシブルな深度モデルを訓練することを提案する。
実験の結果,24深度のデコードを同時にサポートでき,個別のトレーニングやフレキシブルな深さモデルトレーニング手法である layerdrop よりも優れていることがわかった。
関連論文リスト
- One Diffusion to Generate Them All [54.82732533013014]
OneDiffusionは双方向画像合成と理解をサポートする汎用的で大規模な拡散モデルである。
テキスト、深さ、ポーズ、レイアウト、セマンティックマップなどの入力から条件生成を可能にする。
OneDiffusionは、シーケンシャルな画像入力を使用して、マルチビュー生成、カメラポーズ推定、即時パーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-11-25T12:11:05Z) - Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - ATOM: Asynchronous Training of Massive Models for Deep Learning in a Decentralized Environment [7.916080032572087]
Atomは、分散化された環境で巨大なモデルの非同期トレーニング用に設計された、レジリエントな分散トレーニングフレームワークである。
atomは、スワップをシームレスにモデルし、トレーニングスループットを最適化するために複数のコピーを同時にトレーニングすることで、1つのホスト(ピア)に完全なLLMを適合させることを目的としている。
異なるGPT-3モデル構成を用いて実験したところ、最適ネットワーク接続のシナリオでは、原子は最先端の分散パイプライン並列化アプローチを組み込んだ場合、トレーニング効率を最大20倍に向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:43:43Z) - Subnetwork-to-go: Elastic Neural Network with Dynamic Training and
Customizable Inference [16.564868336748503]
本稿では,大規模ネットワークを訓練し,モデルサイズや複雑性の制約を考慮し,そのサブネットワークを柔軟に抽出する簡単な方法を提案する。
音源分離モデルによる実験結果から,提案手法は,異なるサブネットワークサイズと複雑度をまたいだ分離性能を効果的に向上できることが示された。
論文 参考訳(メタデータ) (2023-12-06T12:40:06Z) - SortedNet: A Scalable and Generalized Framework for Training Modular Deep Neural Networks [30.069353400127046]
我々は、ディープニューラルネットワーク(DNN)の固有のモジュラリティを活用するためにSortedNetを提案する。
SortedNetは、メインモデルのトレーニングと同時にサブモデルのトレーニングを可能にする。
一度に160台のサブモデルを訓練でき、オリジナルのモデルの性能の少なくとも96%を達成できる。
論文 参考訳(メタデータ) (2023-09-01T05:12:25Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Multifidelity Deep Operator Networks For Data-Driven and
Physics-Informed Problems [0.9999629695552196]
本稿では,異なるレベルの忠実度を持つ2つのデータセットを用いて学習するための複合Deep Operator Network(DeepONet)を提案する。
グリーンランドのフンボルト氷河の氷床力学をモデル化するなど,様々な例で新しい多面体トレーニングを実演する。
論文 参考訳(メタデータ) (2022-04-19T23:19:05Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Deep Transformers with Latent Depth [42.33955275626127]
Transformerモデルは、多くのシーケンスモデリングタスクにおいて最先端のパフォーマンスを達成した。
本稿では,層選択の後方分布を学習することで,どの層を使うかを自動的に学習する確率的フレームワークを提案する。
多言語機械翻訳のための1つの共有トランスフォーマーネットワークを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-09-28T07:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。