論文の概要: Balancing Cost and Benefit with Tied-Multi Transformers
- arxiv url: http://arxiv.org/abs/2002.08614v1
- Date: Thu, 20 Feb 2020 08:20:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 06:31:08.393413
- Title: Balancing Cost and Benefit with Tied-Multi Transformers
- Title(参考訳): Tied-Multi変換器によるバランシングコストとベネフィット
- Authors: Raj Dabre, Raphael Rubino, Atsushi Fujita
- Abstract要約: シーケンス・ツー・シーケンス・モデリングでは、N層エンコーダの最後の層の出力をM層デコーダに供給し、最後のデコーダ層の出力を用いて損失を算出する。
提案手法はNxM損失からなる単一損失を計算し,各損失をNエンコーダ層に接続されたMデコーダ層の出力から算出する。
このようなモデルは、エンコーダ層とデコーダ層の数が異なるNxMモデルを仮定し、エンコーダ層とデコーダ層の最大数より少ないデコードに使用できる。
- 参考スコア(独自算出の注目度): 24.70761584719857
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose and evaluate a novel procedure for training multiple Transformers
with tied parameters which compresses multiple models into one enabling the
dynamic choice of the number of encoder and decoder layers during decoding. In
sequence-to-sequence modeling, typically, the output of the last layer of the
N-layer encoder is fed to the M-layer decoder, and the output of the last
decoder layer is used to compute loss. Instead, our method computes a single
loss consisting of NxM losses, where each loss is computed from the output of
one of the M decoder layers connected to one of the N encoder layers. Such a
model subsumes NxM models with different number of encoder and decoder layers,
and can be used for decoding with fewer than the maximum number of encoder and
decoder layers. We then propose a mechanism to choose a priori the number of
encoder and decoder layers for faster decoding, and also explore recurrent
stacking of layers and knowledge distillation for model compression. We present
a cost-benefit analysis of applying the proposed approaches for neural machine
translation and show that they reduce decoding costs while preserving
translation quality.
- Abstract(参考訳): そこで本研究では,複数のモデルを1つに圧縮する結合パラメータを持つ複数のトランスを,復号時にエンコーダ層とデコーダ層を動的に選択する手法を提案する。
シーケンスツーシーケンスモデリングにおいて、典型的には、n層エンコーダの最後の層の出力はm層デコーダに供給され、最後のデコーダ層の出力は損失を計算するために使用される。
その代わりに、NxM損失からなる単一損失を計算し、各損失はNエンコーダ層の1つに接続されたMデコーダ層の1つの出力から計算する。
このようなモデルでは、エンコーダ層とデコーダ層の数が異なるnxmモデルを使用し、エンコーダ層とデコーダ層の最大数よりも少ないデコードに使用できる。
次に、より高速な復号化のためにエンコーダ層とデコーダ層を優先的に選択する機構を提案し、モデル圧縮のためのレイヤの繰り返し積み重ねと知識蒸留について検討する。
本稿では,提案手法をニューラルネットワーク翻訳に適用するコスト便益分析を行い,翻訳品質を維持しつつ復号コストを低減できることを示す。
関連論文リスト
- Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks [53.550782959908524]
エンコーダ・デコーダモデルのための新しい構成を導入し、構造化された出力と分解可能なタスクの効率を改善する。
提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文 参考訳(メタデータ) (2024-03-19T19:27:23Z) - DEED: Dynamic Early Exit on Decoder for Accelerating Encoder-Decoder
Transformer Models [22.276574156358084]
我々は,各デコーダ層が妥当な予測を生成できるように,深層監視で訓練されたマルチエキシット・エンコーダ・デコーダ・トランスフォーマモデルを構築した。
提案手法は,ベースラインに比べて精度が向上し,全体の推論遅延を30%から60%削減できることを示す。
論文 参考訳(メタデータ) (2023-11-15T01:01:02Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - HARP-Net: Hyper-Autoencoded Reconstruction Propagation for Scalable
Neural Audio Coding [25.51661602383911]
オートエンコーダベースのデコーダは、そのボトルネック層活性化をビットストリングに変換するために量子化を使用する。
この問題を回避するために、対応するエンコーダ・デコーダ層間のスキップ接続を追加する。
提案するハイパー・オートエンコーダ・アーキテクチャは,通常のオートエンコーダ・ベースラインに比べて音質の向上を実証的に検証する。
論文 参考訳(メタデータ) (2021-07-22T17:57:53Z) - On the Sub-Layer Functionalities of Transformer Decoder [74.83087937309266]
トランスフォーマーをベースとしたデコーダは,ソースおよびターゲット言語からの情報をいかに活用するかを検討する。
これらの知見に基づき,各トランスフォーマーデコーダ層内の残フィードフォワードモジュールは,性能の低下を最小限に抑えられることを示した。
論文 参考訳(メタデータ) (2020-10-06T11:50:54Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。