Fugu-MT 論文翻訳(概要): LegoNN: Building Modular Encoder-Decoder Models

論文の概要: LegoNN: Building Modular Encoder-Decoder Models

arxiv url: http://arxiv.org/abs/2206.03318v1
Date: Tue, 7 Jun 2022 14:08:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-08 15:31:13.394601
Title: LegoNN: Building Modular Encoder-Decoder Models
Title（参考訳）: legonn: モジュラーエンコーダ-デコーダモデルの構築
Authors: Siddharth Dalmia, Dmytro Okhonko, Mike Lewis, Sergey Edunov, Shinji Watanabe, Florian Metze, Luke Zettlemoyer, and Abdelrahman Mohamed
Abstract要約: 最先端エンコーダデコーダモデル(例えば、機械翻訳(MT)や音声認識(ASR))は、原子単位として構築され、訓練されたエンドツーエンドである。 MTおよびASRタスク間で再利用可能なデコーダモジュールを用いたエンコーダ・デコーダアーキテクチャの構築手順であるLegoNNについて説明する。
参考スコア（独自算出の注目度）: 117.47858131603112
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: State-of-the-art encoder-decoder models (e.g. for machine translation (MT) or speech recognition (ASR)) are constructed and trained end-to-end as an atomic unit. No component of the model can be (re-)used without the others. We describe LegoNN, a procedure for building encoder-decoder architectures with decoder modules that can be reused across various MT and ASR tasks, without the need for any fine-tuning. To achieve reusability, the interface between each encoder and decoder modules is grounded to a sequence of marginal distributions over a discrete vocabulary pre-defined by the model designer. We present two approaches for ingesting these marginals; one is differentiable, allowing the flow of gradients across the entire network, and the other is gradient-isolating. To enable portability of decoder modules between MT tasks for different source languages and across other tasks like ASR, we introduce a modality agnostic encoder which consists of a length control mechanism to dynamically adapt encoders' output lengths in order to match the expected input length range of pre-trained decoders. We present several experiments to demonstrate the effectiveness of LegoNN models: a trained language generation LegoNN decoder module from German-English (De-En) MT task can be reused with no fine-tuning for the Europarl English ASR and the Romanian-English (Ro-En) MT tasks to match or beat respective baseline models. When fine-tuned towards the target task for few thousand updates, our LegoNN models improved the Ro-En MT task by 1.5 BLEU points, and achieved 12.5% relative WER reduction for the Europarl ASR task. Furthermore, to show its extensibility, we compose a LegoNN ASR model from three modules -- each has been learned within different end-to-end trained models on three different datasets -- boosting the WER reduction to 19.5%.
Abstract（参考訳）: 最先端エンコーダデコーダモデル(例えば、機械翻訳(MT)や音声認識(ASR))は、原子単位として構築され、訓練されたエンドツーエンドである。モデルのどのコンポーネントも他のコンポーネントなしでは(再)使用できない。 LegoNNは、デコーダモジュールでエンコーダ-デコーダアーキテクチャを構築する手順であり、微調整を必要とせず、様々なMTタスクやASRタスクで再利用することができる。再使用性を達成するため、各エンコーダモジュールとデコーダモジュール間のインタフェースは、モデルデザイナが予め定義した離散語彙上の境界分布のシーケンスに基礎を置いている。我々は,これらの辺縁を摂取するための2つのアプローチを提案する。1つは微分可能であり,ネットワーク全体の勾配の流れを許容し,もう1つは勾配分離である。異なるソース言語やASRなどのタスク間でのMTタスク間のデコーダモジュールのポータビリティを実現するため、あらかじめ訓練されたデコーダの入力長範囲に合わせるために、エンコーダの出力長を動的に適応する長さ制御機構からなるモダリティ非依存エンコーダを導入する。ドイツ語(De-En) MTタスクのトレーニング言語生成LegoNNデコーダモジュールは、Europarl English ASRとルーマニア英語(Ro-En) MTタスクの微調整なしで再利用でき、それぞれのベースラインモデルに適合または打ち勝つことができる。数千回の更新で目標タスクに向けて微調整を行うと、LegoNNモデルはRo-En MTタスクを1.5 BLEUポイント改善し、Europarl ASRタスクの相対的なWER削減を12.5%達成した。さらに、拡張性を示すために、3つのモジュールからLegoNN ASRモデルを構築します。

関連論文リスト

GenEDA: Unleashing Generative Reasoning on Netlist via Multimodal Encoder-Decoder Aligned Foundation Model [8.115489346573918]
GenEDAは、回路エンコーダとデコーダを共有潜在空間内で整列させるフレームワークである。このアーキテクチャに基づいて構築されたGenEDAは、ネットリスト上の前例のない3つの生成的推論タスクを可能にする。
論文参考訳（メタデータ） (2025-04-13T08:56:22Z)
Beyond Decoder-only: Large Language Models Can be Good Encoders for Machine Translation [40.72168378706009]
普遍的で効率的で、最適化が容易な翻訳モデルを探求する。大規模な言語モデル(LLM)をNMTエンコーディングに適用し,NMTデコーダをそのまま残す。我々は,機械翻訳システムの一般化度を評価するために,複数のタスクを含む新しいデータセットを構築した。
論文参考訳（メタデータ） (2025-03-09T12:54:05Z)
4D ASR: Joint Beam Search Integrating CTC, Attention, Transducer, and Mask Predict Decoders [53.297697898510194]
我々は、4つのデコーダが同一のエンコーダを共有する共同モデリング手法を提案し、これを4Dモデリングと呼ぶ。 4Dモデルを効率的に訓練するために,マルチタスク学習を安定化させる2段階のトレーニング戦略を導入する。さらに,3つのデコーダを組み合わせることで,新しい1パスビーム探索アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-05T05:18:20Z)
Low-resource speech recognition and dialect identification of Irish in a multi-task framework [7.981589711420179]
本稿では,アイルランド語(ゲール語)低音源音声認識(ASR)と方言識別(DID)のための中間CTC(Inter CTC)を用いて学習したハイブリッドCTC/Attention Encoder-decoderモデルについて検討する。 ASR(TDNN-HMM)とDIDECA(PA-TDNN)のトレーニングモデルと比較した。
論文参考訳（メタデータ） (2024-05-02T13:54:39Z)
U2++ MoE: Scaling 4.7x parameters with minimal impact on RTF [10.81723269312202]
Mixture-of-Experts (MoE) は、より大きく、より有能な言語モデルへのエネルギー効率の良い経路として提案されている。提案したモデルを大規模インナーソースデータセット(160k時間)でベンチマークする。
論文参考訳（メタデータ） (2024-04-25T08:34:21Z)
Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文参考訳（メタデータ） (2024-04-23T17:26:34Z)
Deformable Mixer Transformer with Gating for Multi-Task Learning of Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文参考訳（メタデータ） (2023-08-10T17:37:49Z)
CodeT5+: Open Code Large Language Models for Code Understanding and Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。 CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文参考訳（メタデータ） (2023-05-13T14:23:07Z)
Lego-Features: Exporting modular encoder features for streaming and deliberation ASR [34.23347991756358]
モジュール化されたエンコーダ表現によるエンコーダの構築を探求し始めている作業の上に構築する。私たちのフレームワークは、既存のエンコードされた表現の上に構築され、Lego-Featuresと呼ばれるモジュラー機能に変換します。 RNN-TやLASデコーダでテストすると,Lego-Featuresは強力であることがわかった。
論文参考訳（メタデータ） (2023-03-31T23:33:21Z)
Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。 NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。 NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文参考訳（メタデータ） (2022-10-14T18:00:07Z)
Improving Zero-shot Neural Machine Translation on Language-specific Encoders-Decoders [19.44855809470709]
近年,共有エンコーダデコーダを用いたユニバーサルニューラルネットワーク翻訳(NMT)は,ゼロショット翻訳において良好な性能を示した。ユニバーサルNMTとは異なり、共同で訓練された言語固有のエンコーダ・デコーダは、非共有モジュール間で普遍的な表現を目指す。言語固有エンコーダ・デコーダを用いたゼロショット翻訳について検討する。
論文参考訳（メタデータ） (2021-02-12T15:36:33Z)
Dual-decoder Transformer for Joint Automatic Speech Recognition and Multilingual Speech Translation [71.54816893482457]
自動音声認識(ASR)と多言語音声翻訳(ST)を共同で行う新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを導入する。我々のモデルはオリジナルのTransformerアーキテクチャに基づいているが、2つのデコーダで構成されており、それぞれが1つのタスク(ASRまたはST)を担っている。
論文参考訳（メタデータ） (2020-11-02T04:59:50Z)
Encoder-Decoder Based Convolutional Neural Networks with Multi-Scale-Aware Modules for Crowd Counting [6.893512627479196]
正確かつ効率的な群集カウントのための2つの修正ニューラルネットワークを提案する。最初のモデルはM-SFANetと名付けられ、アラス空間ピラミッドプール(ASPP)とコンテキスト認識モジュール(CAN)が付属している。第2のモデルはM-SegNetと呼ばれ、SFANetの双線形アップサンプリングをSegNetで使用される最大アンプールに置き換えることで生成される。
論文参考訳（メタデータ） (2020-03-12T03:00:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。