論文の概要: Layer-Wise Multi-View Learning for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2011.01482v1
- Date: Tue, 3 Nov 2020 05:06:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 04:44:26.681194
- Title: Layer-Wise Multi-View Learning for Neural Machine Translation
- Title(参考訳): ニューラルマシン翻訳のための階層型マルチビュー学習
- Authors: Qiang Wang, Changliang Li, Yue Zhang, Tong Xiao, Jingbo Zhu
- Abstract要約: 従来のニューラルネットワーク翻訳は、最上位のエンコーダ層のコンテキスト表現に限られている。
この問題を解決するために,レイヤワイドな多視点学習を提案する。
提案手法は,複数の強いベースラインに対して安定した改善をもたらす。
- 参考スコア(独自算出の注目度): 45.679212203943194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional neural machine translation is limited to the topmost encoder
layer's context representation and cannot directly perceive the lower encoder
layers. Existing solutions usually rely on the adjustment of network
architecture, making the calculation more complicated or introducing additional
structural restrictions. In this work, we propose layer-wise multi-view
learning to solve this problem, circumventing the necessity to change the model
structure. We regard each encoder layer's off-the-shelf output, a by-product in
layer-by-layer encoding, as the redundant view for the input sentence. In this
way, in addition to the topmost encoder layer (referred to as the primary
view), we also incorporate an intermediate encoder layer as the auxiliary view.
We feed the two views to a partially shared decoder to maintain independent
prediction. Consistency regularization based on KL divergence is used to
encourage the two views to learn from each other. Extensive experimental
results on five translation tasks show that our approach yields stable
improvements over multiple strong baselines. As another bonus, our method is
agnostic to network architectures and can maintain the same inference speed as
the original model.
- Abstract(参考訳): 従来のニューラルマシン翻訳は最上位のエンコーダ層のコンテキスト表現に限定されており、下位のエンコーダ層を直接認識することはできない。
既存のソリューションは通常、ネットワークアーキテクチャの調整に依存しており、計算をより複雑にするか、追加の構造的制約を導入する。
本研究では,モデル構造を変更する必要性を回避するため,レイヤワイドな多視点学習を提案する。
我々は,各エンコーダ層のオフザシェルフ出力,すなわち層単位のエンコーディングの副産物を,入力文の冗長ビューとみなす。
このように、最上位エンコーダ層(一次ビューとして参照)に加えて、中間エンコーダ層を補助ビューとして組み込む。
2つのビューを部分的に共有したデコーダに供給して、独立した予測を行ないます。
KLの発散に基づく一貫性の規則化は、2つの視点が互いに学習することを奨励するために用いられる。
5つの翻訳タスクに関する広範な実験結果から,複数の強いベースラインに対して安定した改善が得られた。
また,提案手法はネットワークアーキテクチャに非依存であり,従来のモデルと同じ推論速度を維持することができる。
関連論文リスト
- Rethinking the adaptive relationship between Encoder Layers and Decoder Layers [2.460250239278795]
本稿では,SOTAモデルHelsinki-NLP/opusmt-de-enを用いて,レイヤとデコーダ層間の適応関係について検討する。
その結果, 事前学習したモデル構造を直接修正することで, 最適性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-05-14T13:05:16Z) - Layer-wise Representation Fusion for Compositional Generalization [26.771056871444692]
合成一般化における失敗の主な理由は、エンコーダとデコーダの両方の最上層におけるシーケンスの構文的および意味的表現が絡み合っていることである。
トランスフォーマー層の下部から上部まで、表現の進化メカニズムを解析することにより、なぜそのメカニズムが存在するのかを説明する。
そこで我々は,従来のレイヤの情報を符号化・復号処理に融合させることを学習するCGのための新しい textbfLayer-wise textbfRepresentation textbfFusion フレームワークである LRF を提案する。
論文 参考訳(メタデータ) (2023-07-20T12:01:40Z) - Learning to Compose Representations of Different Encoder Layers towards
Improving Compositional Generalization [29.32436551704417]
textscCompoSition (textbfCompose textbfSyntactic and Semanttextbfic Representatextbftions)を提案する。
textscCompoSitionは、2つの総合的で現実的なベンチマークで競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-20T11:16:59Z) - Exploring and Exploiting Multi-Granularity Representations for Machine
Reading Comprehension [13.191437539419681]
適応的双方向注意カプセルネットワーク(ABA-Net)という新しい手法を提案する。
ABA-Netは、異なるレベルのソース表現を予測子に適応的に活用する。
私たちはSQuAD 1.0データセットに新しい最先端パフォーマンスを設定しました。
論文 参考訳(メタデータ) (2022-08-18T10:14:32Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z) - Suppress and Balance: A Simple Gated Network for Salient Object
Detection [89.88222217065858]
両問題を同時に解くための単純なゲートネットワーク(GateNet)を提案する。
多レベルゲートユニットの助けを借りて、エンコーダからの貴重なコンテキスト情報をデコーダに最適に送信することができる。
さらに,提案したFold-ASPP操作(Fold-ASPP)に基づくアトラス空間ピラミッドプーリングを用いて,様々なスケールのサリアンオブジェクトを正確に位置決めする。
論文 参考訳(メタデータ) (2020-07-16T02:00:53Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。