論文の概要: LegoNN: Building Modular Encoder-Decoder Models
- arxiv url: http://arxiv.org/abs/2206.03318v2
- Date: Tue, 11 Jul 2023 17:43:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 19:28:46.936148
- Title: LegoNN: Building Modular Encoder-Decoder Models
- Title(参考訳): legonn: モジュラーエンコーダ-デコーダモデルの構築
- Authors: Siddharth Dalmia, Dmytro Okhonko, Mike Lewis, Sergey Edunov, Shinji
Watanabe, Florian Metze, Luke Zettlemoyer, and Abdelrahman Mohamed
- Abstract要約: 最先端のエンコーダ・デコーダモデルは、原子単位として構築され、訓練されたエンドツーエンドである。
モデルのどのコンポーネントも他のコンポーネントなしでは(再)使用できないため、部品の共有は不可能です。
LegoNNは、エンコーダ-デコーダアーキテクチャを、微調整を必要とせずに、その部品を他のタスクに適用できる方法で構築する手順である。
- 参考スコア(独自算出の注目度): 117.47858131603112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art encoder-decoder models (e.g. for machine translation (MT) or
automatic speech recognition (ASR)) are constructed and trained end-to-end as
an atomic unit. No component of the model can be (re-)used without the others,
making it impossible to share parts, e.g. a high resourced decoder, across
tasks. We describe LegoNN, a procedure for building encoder-decoder
architectures in a way so that its parts can be applied to other tasks without
the need for any fine-tuning. To achieve this reusability, the interface
between encoder and decoder modules is grounded to a sequence of marginal
distributions over a pre-defined discrete vocabulary. We present two approaches
for ingesting these marginals; one is differentiable, allowing the flow of
gradients across the entire network, and the other is gradient-isolating. To
enable the portability of decoder modules between MT tasks for different source
languages and across other tasks like ASR, we introduce a modality agnostic
encoder which consists of a length control mechanism to dynamically adapt
encoders' output lengths in order to match the expected input length range of
pre-trained decoders. We present several experiments to demonstrate the
effectiveness of LegoNN models: a trained language generation LegoNN decoder
module from German-English (De-En) MT task can be reused without any
fine-tuning for the Europarl English ASR and the Romanian-English (Ro-En) MT
tasks, matching or beating the performance of baseline. After fine-tuning,
LegoNN models improve the Ro-En MT task by 1.5 BLEU points and achieve 12.5%
relative WER reduction on the Europarl ASR task. To show how the approach
generalizes, we compose a LegoNN ASR model from three modules -- each has been
learned within different end-to-end trained models on three different datasets
-- achieving an overall WER reduction of 19.5%.
- Abstract(参考訳): 最先端エンコーダデコーダモデル(例えば、機械翻訳(MT)や自動音声認識(ASR))は、原子単位として構築され、訓練されたエンドツーエンドである。
モデルのコンポーネントを他のコンポーネントなしで(再)使用することはできないため、高リソースデコーダなどの部品をタスク間で共有することは不可能である。
LegoNNは、エンコーダ-デコーダアーキテクチャを、微調整を必要とせずに、その部品を他のタスクに適用できる方法で構築する手順である。
この再利用性を達成するために、エンコーダモジュールとデコーダモジュールの間のインタフェースは、事前定義された離散語彙上の境界分布の列に接する。
我々は,これらの辺縁を摂取するための2つのアプローチを提案する。1つは微分可能であり,ネットワーク全体の勾配の流れを許容し,もう1つは勾配分離である。
異なるソース言語やASRなどのタスク間でのMTタスク間のデコーダモジュールのポータビリティを実現するために,事前学習したデコーダの入力長範囲に合わせるために,エンコーダの出力長を動的に適応する長さ制御機構からなるモダリティ非依存エンコーダを導入する。
また,europarl english asrとルーマニア英語(ro-en)mtタスクを微調整することなく,ドイツ語-英語(de-en)mtタスクから学習した言語生成legonnデコーダモジュールを再利用し,ベースラインのパフォーマンスを一致させたり,打ち負かしたりすることが可能である。
微調整後、LegoNNモデルはRo-En MTタスクを1.5 BLEUポイント改善し、Europarl ASRタスクで12.5%のWER削減を達成した。
このアプローチの一般化を示すために、3つのモジュールからLegoNN ASRモデルを構成します。それぞれが3つの異なるデータセット上で、さまざまなエンドツーエンドトレーニングモデル内で学習されており、全体的なWERの削減率は19.5%に達しています。
関連論文リスト
- 4D ASR: Joint Beam Search Integrating CTC, Attention, Transducer, and Mask Predict Decoders [53.297697898510194]
我々は、4つのデコーダが同一のエンコーダを共有する共同モデリング手法を提案し、これを4Dモデリングと呼ぶ。
4Dモデルを効率的に訓練するために,マルチタスク学習を安定化させる2段階のトレーニング戦略を導入する。
さらに,3つのデコーダを組み合わせることで,新しい1パスビーム探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T05:18:20Z) - Low-resource speech recognition and dialect identification of Irish in a multi-task framework [7.981589711420179]
本稿では,アイルランド語(ゲール語)低音源音声認識(ASR)と方言識別(DID)のための中間CTC(Inter CTC)を用いて学習したハイブリッドCTC/Attention Encoder-decoderモデルについて検討する。
ASR(TDNN-HMM)とDIDECA(PA-TDNN)のトレーニングモデルと比較した。
論文 参考訳(メタデータ) (2024-05-02T13:54:39Z) - U2++ MoE: Scaling 4.7x parameters with minimal impact on RTF [10.81723269312202]
Mixture-of-Experts (MoE) は、より大きく、より有能な言語モデルへのエネルギー効率の良い経路として提案されている。
提案したモデルを大規模インナーソースデータセット(160k時間)でベンチマークする。
論文 参考訳(メタデータ) (2024-04-25T08:34:21Z) - Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。
提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。
アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文 参考訳(メタデータ) (2024-04-23T17:26:34Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - Lego-Features: Exporting modular encoder features for streaming and
deliberation ASR [34.23347991756358]
モジュール化されたエンコーダ表現によるエンコーダの構築を探求し始めている作業の上に構築する。
私たちのフレームワークは、既存のエンコードされた表現の上に構築され、Lego-Featuresと呼ばれるモジュラー機能に変換します。
RNN-TやLASデコーダでテストすると,Lego-Featuresは強力であることがわかった。
論文 参考訳(メタデータ) (2023-03-31T23:33:21Z) - Improving Zero-shot Neural Machine Translation on Language-specific
Encoders-Decoders [19.44855809470709]
近年,共有エンコーダデコーダを用いたユニバーサルニューラルネットワーク翻訳(NMT)は,ゼロショット翻訳において良好な性能を示した。
ユニバーサルNMTとは異なり、共同で訓練された言語固有のエンコーダ・デコーダは、非共有モジュール間で普遍的な表現を目指す。
言語固有エンコーダ・デコーダを用いたゼロショット翻訳について検討する。
論文 参考訳(メタデータ) (2021-02-12T15:36:33Z) - Dual-decoder Transformer for Joint Automatic Speech Recognition and
Multilingual Speech Translation [71.54816893482457]
自動音声認識(ASR)と多言語音声翻訳(ST)を共同で行う新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを導入する。
我々のモデルはオリジナルのTransformerアーキテクチャに基づいているが、2つのデコーダで構成されており、それぞれが1つのタスク(ASRまたはST)を担っている。
論文 参考訳(メタデータ) (2020-11-02T04:59:50Z) - Encoder-Decoder Based Convolutional Neural Networks with
Multi-Scale-Aware Modules for Crowd Counting [6.893512627479196]
正確かつ効率的な群集カウントのための2つの修正ニューラルネットワークを提案する。
最初のモデルはM-SFANetと名付けられ、アラス空間ピラミッドプール(ASPP)とコンテキスト認識モジュール(CAN)が付属している。
第2のモデルはM-SegNetと呼ばれ、SFANetの双線形アップサンプリングをSegNetで使用される最大アンプールに置き換えることで生成される。
論文 参考訳(メタデータ) (2020-03-12T03:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。