論文の概要: RedApt: An Adaptor for wav2vec 2 Encoding \\ Faster and Smaller Speech
Translation without Quality Compromise
- arxiv url: http://arxiv.org/abs/2210.08475v1
- Date: Sun, 16 Oct 2022 07:58:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 16:12:55.638306
- Title: RedApt: An Adaptor for wav2vec 2 Encoding \\ Faster and Smaller Speech
Translation without Quality Compromise
- Title(参考訳): RedApt:wav2vec 2エンコードのためのアダプタ
- Authors: Jinming Zhao, Hao Yang, Gholamreza Haffari, Ehsan Shareghi
- Abstract要約: 我々は,任意のトランスフォーマーベース音声符号化アーキテクチャにシームレスに統合可能な,新しいReduceer AdaptorブロックRedAptを提案する。
事前訓練されたwav2vec 2音声エンコーダをRedAptbrings 41%の高速化、33%のメモリ削減、24%のFLOPを推論で削減した。
- 参考スコア(独自算出の注目度): 66.92823764664206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained speech Transformers in speech translation (ST) have facilitated
state-of-the-art (SotA) results; yet, using such encoders is computationally
expensive. To improve this, we present a novel Reducer Adaptor block, RedApt,
that could be seamlessly integrated within any Transformer-based speech
encoding architecture. Integrating the pretrained wav2vec 2 speech encoder with
RedAptbrings 41% speedup, 33% memory reduction with 24% fewer FLOPs at
inference. To our positive surprise, our ST model with RedApt outperforms the
SotA architecture by an average of 0.68 BLEU score on 8 language pairs from
Must-C.
- Abstract(参考訳): 音声翻訳(ST)における事前訓練された音声変換器は、最先端(SotA)の結果を促進するが、そのようなエンコーダの使用には計算コストがかかる。
これを改善するために,任意のトランスフォーマーベース音声符号化アーキテクチャにシームレスに統合可能な,新しいReduceer AdaptorブロックRedAptを提案する。
事前訓練されたwav2vec 2音声エンコーダをRedAptbrings 41%の高速化、33%のメモリ削減、24%のFLOPを推論で削減した。
ポジティブな驚きとして、reaptのstモデルは8つの言語ペアで平均 0.68 bleuスコアでsomaアーキテクチャを上回っています。
関連論文リスト
- Cascaded Cross-Modal Transformer for Audio-Textual Classification [30.643750999989233]
本稿では,自動音声認識(ASR)モデルを用いた音声の書き起こしにより,マルチモーダル表現の固有値を活用することを提案する。
これにより、各データサンプルに対する音声テキスト(マルチモーダル)表現が得られる。
我々は、ACM Multimedia 2023 Computational Paralinguistics Challenge の Requests Sub-Challenge において、勝利のソリューションであると宣言された。
論文 参考訳(メタデータ) (2024-01-15T10:18:08Z) - DASpeech: Directed Acyclic Transformer for Fast and High-quality
Speech-to-Speech Translation [36.126810842258706]
直接音声音声変換(S2ST)は、1つのモデルを用いて、ある言語から別の言語に音声を翻訳する。
言語的および音響的多様性が存在するため、ターゲット音声は複雑な多モーダル分布に従う。
高速かつ高品質なS2STを実現する非自己回帰直接S2STモデルであるDASpeechを提案する。
論文 参考訳(メタデータ) (2023-10-11T11:39:36Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Instantaneous Grammatical Error Correction with Shallow Aggressive
Decoding [57.08875260900373]
即時文法的誤り訂正(GEC)のためのトランスフォーマーのオンライン推論効率を改善するために,Shallow Aggressive Decoding (SAD)を提案する。
SADは、計算並列性を改善するために、各ステップで1つのトークンだけを復号するのではなく、可能な限り多くのトークンを並列に復号する。
英語と中国語のGECベンチマークでの実験では、アグレッシブな復号化がオンライン推論の大幅なスピードアップをもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-09T10:30:59Z) - Transformer Based Deliberation for Two-Pass Speech Recognition [46.86118010771703]
音声認識システムは、単語を素早く生成し、正確な結果を生成する必要がある。
2つのパスモデルは、単語を素早く出力する1次パスデコーダと、よりコンテキストを必要とするがより正確である2次パスデコーダを使用することで、これらの要求に優れる。
以前は、議論ネットワークが効果的な第2パスモデルになり得ることが証明されていた。
論文 参考訳(メタデータ) (2021-01-27T18:05:22Z) - Dual-decoder Transformer for Joint Automatic Speech Recognition and
Multilingual Speech Translation [71.54816893482457]
自動音声認識(ASR)と多言語音声翻訳(ST)を共同で行う新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを導入する。
我々のモデルはオリジナルのTransformerアーキテクチャに基づいているが、2つのデコーダで構成されており、それぞれが1つのタスク(ASRまたはST)を担っている。
論文 参考訳(メタデータ) (2020-11-02T04:59:50Z) - Conv-Transformer Transducer: Low Latency, Low Frame Rate, Streamable
End-to-End Speech Recognition [8.046120977786702]
Transformerは自動音声認識(ASR)における最先端のエンドツーエンドモデルと競合する性能を達成した
エンコーダ-デコーダアーキテクチャを備えたオリジナルのTransformerは、オフラインのASRにのみ適合する。
Conv-Transformer Transducerという名前のこのアーキテクチャは、外部言語モデルなしでLibriSpeechデータセット(3.6% WER on test-clean)の競合性能を実現する。
論文 参考訳(メタデータ) (2020-08-13T08:20:02Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。