論文の概要: Rethinking the adaptive relationship between Encoder Layers and Decoder Layers
- arxiv url: http://arxiv.org/abs/2405.08570v1
- Date: Tue, 14 May 2024 13:05:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 14:08:58.070273
- Title: Rethinking the adaptive relationship between Encoder Layers and Decoder Layers
- Title(参考訳): エンコーダ層とデコーダ層との適応関係の再考
- Authors: Yubo Song,
- Abstract要約: 本稿では,SOTAモデルHelsinki-NLP/opusmt-de-enを用いて,レイヤとデコーダ層間の適応関係について検討する。
その結果, 事前学習したモデル構造を直接修正することで, 最適性能が向上することが示唆された。
- 参考スコア(独自算出の注目度): 2.460250239278795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article explores the adaptive relationship between Encoder Layers and Decoder Layers using the SOTA model Helsinki-NLP/opus-mt-de-en, which translates German to English. The specific method involves introducing a bias-free fully connected layer between the Encoder and Decoder, with different initializations of the layer's weights, and observing the outcomes of fine-tuning versus retraining. Four experiments were conducted in total. The results suggest that directly modifying the pre-trained model structure for fine-tuning yields suboptimal performance. However, upon observing the outcomes of the experiments with retraining, this structural adjustment shows significant potential.
- Abstract(参考訳): 本稿では,SOTAモデルHelsinki-NLP/opus-mt-de-enを用いて,エンコーダ層とデコーダ層との適応関係について検討する。
具体的な方法は、エンコーダとデコーダの間にバイアスのない完全に接続された層を導入し、レイヤの重みの異なる初期化を行い、微調整と再トレーニングの結果を観察することである。
合計4つの実験が行われた。
その結果, 事前学習したモデル構造を直接修正することで, 最適性能が向上することが示唆された。
しかし、再訓練による実験の結果を観察すると、この構造的調整は有意なポテンシャルを示した。
関連論文リスト
- Layer-wise Representation Fusion for Compositional Generalization [26.771056871444692]
合成一般化における失敗の主な理由は、エンコーダとデコーダの両方の最上層におけるシーケンスの構文的および意味的表現が絡み合っていることである。
トランスフォーマー層の下部から上部まで、表現の進化メカニズムを解析することにより、なぜそのメカニズムが存在するのかを説明する。
そこで我々は,従来のレイヤの情報を符号化・復号処理に融合させることを学習するCGのための新しい textbfLayer-wise textbfRepresentation textbfFusion フレームワークである LRF を提案する。
論文 参考訳(メタデータ) (2023-07-20T12:01:40Z) - Towards Efficient Fine-tuning of Pre-trained Code Models: An
Experimental Study and Beyond [52.656743602538825]
微調整された事前訓練されたコードモデルは、大きな計算コストを発生させる。
我々は、レイヤーワイドで事前訓練された表現と、微調整中に符号化されたコード知識に何が起こるのかを実験的に検討する。
本稿では,レイヤ凍結により事前学習したコードモデルを効率的に微調整するTellyを提案する。
論文 参考訳(メタデータ) (2023-04-11T13:34:13Z) - Quick Dense Retrievers Consume KALE: Post Training Kullback Leibler
Alignment of Embeddings for Asymmetrical dual encoders [89.29256833403169]
我々は,高密度検索手法の推論効率を高めるための効率的かつ正確な手法であるKulback Leibler Alignment of Embeddings (KALE)を紹介した。
KALEは、バイエンコーダトレーニング後の従来の知識蒸留を拡張し、完全なリトレーニングやインデックス生成なしに効率的なクエリエンコーダ圧縮を可能にする。
KALEと非対称トレーニングを用いることで、3倍高速な推論を持つにもかかわらず、DistilBERTの性能を超えるモデルを生成することができる。
論文 参考訳(メタデータ) (2023-03-31T15:44:13Z) - WLD-Reg: A Data-dependent Within-layer Diversity Regularizer [98.78384185493624]
ニューラルネットワークは、勾配に基づく最適化と共同で訓練された階層構造に配置された複数の層で構成されている。
我々は、この従来の「中間層」フィードバックを補うために、同じ層内での活性化の多様性を促進するために、追加の「中間層」フィードバックを補うことを提案する。
本稿では,提案手法が複数のタスクにおける最先端ニューラルネットワークモデルの性能を向上させることを実証した広範な実証研究を提案する。
論文 参考訳(メタデータ) (2023-01-03T20:57:22Z) - ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking
Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。
文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。
このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T06:26:29Z) - Latency Adjustable Transformer Encoder for Language Understanding [0.8287206589886879]
本稿では,提案する推論遅延の高速化により,推論コストを適応的に調整する効率的なトランスフォーマーアーキテクチャを提案する。
提案手法は,重要でないシークエンス要素(ワードベクター)を検出し,Actent Context Contribution (ACC) メトリックを用いて,各エンコーダ層でそれらを除去する。
提案手法は,BERT_base と GPT-2 の推論遅延を最大4.8倍,3.72倍に改善し,0.75% の精度低下と平均パープレキシティが可能である。
論文 参考訳(メタデータ) (2022-01-10T13:04:39Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Layer-Wise Multi-View Learning for Neural Machine Translation [45.679212203943194]
従来のニューラルネットワーク翻訳は、最上位のエンコーダ層のコンテキスト表現に限られている。
この問題を解決するために,レイヤワイドな多視点学習を提案する。
提案手法は,複数の強いベースラインに対して安定した改善をもたらす。
論文 参考訳(メタデータ) (2020-11-03T05:06:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。