論文の概要: LegoNN: Building Modular Encoder-Decoder Models
- arxiv url: http://arxiv.org/abs/2206.03318v1
- Date: Tue, 7 Jun 2022 14:08:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 15:31:13.394601
- Title: LegoNN: Building Modular Encoder-Decoder Models
- Title(参考訳): legonn: モジュラーエンコーダ-デコーダモデルの構築
- Authors: Siddharth Dalmia, Dmytro Okhonko, Mike Lewis, Sergey Edunov, Shinji
Watanabe, Florian Metze, Luke Zettlemoyer, and Abdelrahman Mohamed
- Abstract要約: 最先端エンコーダデコーダモデル(例えば、機械翻訳(MT)や音声認識(ASR))は、原子単位として構築され、訓練されたエンドツーエンドである。
MTおよびASRタスク間で再利用可能なデコーダモジュールを用いたエンコーダ・デコーダアーキテクチャの構築手順であるLegoNNについて説明する。
- 参考スコア(独自算出の注目度): 117.47858131603112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art encoder-decoder models (e.g. for machine translation (MT) or
speech recognition (ASR)) are constructed and trained end-to-end as an atomic
unit. No component of the model can be (re-)used without the others. We
describe LegoNN, a procedure for building encoder-decoder architectures with
decoder modules that can be reused across various MT and ASR tasks, without the
need for any fine-tuning. To achieve reusability, the interface between each
encoder and decoder modules is grounded to a sequence of marginal distributions
over a discrete vocabulary pre-defined by the model designer. We present two
approaches for ingesting these marginals; one is differentiable, allowing the
flow of gradients across the entire network, and the other is
gradient-isolating. To enable portability of decoder modules between MT tasks
for different source languages and across other tasks like ASR, we introduce a
modality agnostic encoder which consists of a length control mechanism to
dynamically adapt encoders' output lengths in order to match the expected input
length range of pre-trained decoders. We present several experiments to
demonstrate the effectiveness of LegoNN models: a trained language generation
LegoNN decoder module from German-English (De-En) MT task can be reused with no
fine-tuning for the Europarl English ASR and the Romanian-English (Ro-En) MT
tasks to match or beat respective baseline models. When fine-tuned towards the
target task for few thousand updates, our LegoNN models improved the Ro-En MT
task by 1.5 BLEU points, and achieved 12.5% relative WER reduction for the
Europarl ASR task. Furthermore, to show its extensibility, we compose a LegoNN
ASR model from three modules -- each has been learned within different
end-to-end trained models on three different datasets -- boosting the WER
reduction to 19.5%.
- Abstract(参考訳): 最先端エンコーダデコーダモデル(例えば、機械翻訳(MT)や音声認識(ASR))は、原子単位として構築され、訓練されたエンドツーエンドである。
モデルのどのコンポーネントも他のコンポーネントなしでは(再)使用できない。
LegoNNは、デコーダモジュールでエンコーダ-デコーダアーキテクチャを構築する手順であり、微調整を必要とせず、様々なMTタスクやASRタスクで再利用することができる。
再使用性を達成するため、各エンコーダモジュールとデコーダモジュール間のインタフェースは、モデルデザイナが予め定義した離散語彙上の境界分布のシーケンスに基礎を置いている。
我々は,これらの辺縁を摂取するための2つのアプローチを提案する。1つは微分可能であり,ネットワーク全体の勾配の流れを許容し,もう1つは勾配分離である。
異なるソース言語やASRなどのタスク間でのMTタスク間のデコーダモジュールのポータビリティを実現するため、あらかじめ訓練されたデコーダの入力長範囲に合わせるために、エンコーダの出力長を動的に適応する長さ制御機構からなるモダリティ非依存エンコーダを導入する。
ドイツ語(De-En) MTタスクのトレーニング言語生成LegoNNデコーダモジュールは、Europarl English ASRとルーマニア英語(Ro-En) MTタスクの微調整なしで再利用でき、それぞれのベースラインモデルに適合または打ち勝つことができる。
数千回の更新で目標タスクに向けて微調整を行うと、LegoNNモデルはRo-En MTタスクを1.5 BLEUポイント改善し、Europarl ASRタスクの相対的なWER削減を12.5%達成した。
さらに、拡張性を示すために、3つのモジュールからLegoNN ASRモデルを構築します。
関連論文リスト
- 4D ASR: Joint Beam Search Integrating CTC, Attention, Transducer, and Mask Predict Decoders [53.297697898510194]
我々は、4つのデコーダが同一のエンコーダを共有する共同モデリング手法を提案し、これを4Dモデリングと呼ぶ。
4Dモデルを効率的に訓練するために,マルチタスク学習を安定化させる2段階のトレーニング戦略を導入する。
さらに,3つのデコーダを組み合わせることで,新しい1パスビーム探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T05:18:20Z) - Low-resource speech recognition and dialect identification of Irish in a multi-task framework [7.981589711420179]
本稿では,アイルランド語(ゲール語)低音源音声認識(ASR)と方言識別(DID)のための中間CTC(Inter CTC)を用いて学習したハイブリッドCTC/Attention Encoder-decoderモデルについて検討する。
ASR(TDNN-HMM)とDIDECA(PA-TDNN)のトレーニングモデルと比較した。
論文 参考訳(メタデータ) (2024-05-02T13:54:39Z) - U2++ MoE: Scaling 4.7x parameters with minimal impact on RTF [10.81723269312202]
Mixture-of-Experts (MoE) は、より大きく、より有能な言語モデルへのエネルギー効率の良い経路として提案されている。
提案したモデルを大規模インナーソースデータセット(160k時間)でベンチマークする。
論文 参考訳(メタデータ) (2024-04-25T08:34:21Z) - Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。
提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。
アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文 参考訳(メタデータ) (2024-04-23T17:26:34Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - Lego-Features: Exporting modular encoder features for streaming and
deliberation ASR [34.23347991756358]
モジュール化されたエンコーダ表現によるエンコーダの構築を探求し始めている作業の上に構築する。
私たちのフレームワークは、既存のエンコードされた表現の上に構築され、Lego-Featuresと呼ばれるモジュラー機能に変換します。
RNN-TやLASデコーダでテストすると,Lego-Featuresは強力であることがわかった。
論文 参考訳(メタデータ) (2023-03-31T23:33:21Z) - Improving Zero-shot Neural Machine Translation on Language-specific
Encoders-Decoders [19.44855809470709]
近年,共有エンコーダデコーダを用いたユニバーサルニューラルネットワーク翻訳(NMT)は,ゼロショット翻訳において良好な性能を示した。
ユニバーサルNMTとは異なり、共同で訓練された言語固有のエンコーダ・デコーダは、非共有モジュール間で普遍的な表現を目指す。
言語固有エンコーダ・デコーダを用いたゼロショット翻訳について検討する。
論文 参考訳(メタデータ) (2021-02-12T15:36:33Z) - Dual-decoder Transformer for Joint Automatic Speech Recognition and
Multilingual Speech Translation [71.54816893482457]
自動音声認識(ASR)と多言語音声翻訳(ST)を共同で行う新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを導入する。
我々のモデルはオリジナルのTransformerアーキテクチャに基づいているが、2つのデコーダで構成されており、それぞれが1つのタスク(ASRまたはST)を担っている。
論文 参考訳(メタデータ) (2020-11-02T04:59:50Z) - Encoder-Decoder Based Convolutional Neural Networks with
Multi-Scale-Aware Modules for Crowd Counting [6.893512627479196]
正確かつ効率的な群集カウントのための2つの修正ニューラルネットワークを提案する。
最初のモデルはM-SFANetと名付けられ、アラス空間ピラミッドプール(ASPP)とコンテキスト認識モジュール(CAN)が付属している。
第2のモデルはM-SegNetと呼ばれ、SFANetの双線形アップサンプリングをSegNetで使用される最大アンプールに置き換えることで生成される。
論文 参考訳(メタデータ) (2020-03-12T03:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。