論文の概要: Aligner-Encoders: Self-Attention Transformers Can Be Self-Transducers
- arxiv url: http://arxiv.org/abs/2502.05232v1
- Date: Thu, 06 Feb 2025 22:09:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:33:38.764262
- Title: Aligner-Encoders: Self-Attention Transformers Can Be Self-Transducers
- Title(参考訳): Aligner-Encoders:セルフアテンショントランスフォーマーはセルフトランスデューサになれる
- Authors: Adam Stooke, Rohit Prabhavalkar, Khe Chai Sim, Pedro Moreno Mengibar,
- Abstract要約: 近年採用されているトランス方式のエンコーダは,フォワードパス中に内部的にアライメントを行うことができることを示す。
この新たな現象により、よりシンプルで効率的なモデル"Aligner-Encoder"が実現される。
我々は,芸術の状況に非常に近い性能を実証する実験を行った。
- 参考スコア(独自算出の注目度): 14.91083492000769
- License:
- Abstract: Modern systems for automatic speech recognition, including the RNN-Transducer and Attention-based Encoder-Decoder (AED), are designed so that the encoder is not required to alter the time-position of information from the audio sequence into the embedding; alignment to the final text output is processed during decoding. We discover that the transformer-based encoder adopted in recent years is actually capable of performing the alignment internally during the forward pass, prior to decoding. This new phenomenon enables a simpler and more efficient model, the "Aligner-Encoder". To train it, we discard the dynamic programming of RNN-T in favor of the frame-wise cross-entropy loss of AED, while the decoder employs the lighter text-only recurrence of RNN-T without learned cross-attention -- it simply scans embedding frames in order from the beginning, producing one token each until predicting the end-of-message. We conduct experiments demonstrating performance remarkably close to the state of the art, including a special inference configuration enabling long-form recognition. In a representative comparison, we measure the total inference time for our model to be 2x faster than RNN-T and 16x faster than AED. Lastly, we find that the audio-text alignment is clearly visible in the self-attention weights of a certain layer, which could be said to perform "self-transduction".
- Abstract(参考訳): RNN-Transducer や Attention-based Encoder-Decoder (AED) を含む現代の音声認識システムは、エンコーダがオーディオシーケンスから埋め込みへの情報のタイムポジションを変更する必要がないよう設計されている。
近年採用されているトランス方式のエンコーダは,復号前に前方通過中に内部的にアライメントを行うことができることが判明した。
この新たな現象は、よりシンプルで効率的なモデル「Aligner-Encoder」を可能にする。
トレーニングのために、フレームワイドのクロスエントロピー損失に代えて、RNN-Tの動的プログラミングを廃止する一方、デコーダは、クロスアテンションを学習せずに、RNN-Tのより軽いテキストのみのリカレンスを採用します。
我々は、長文認識が可能な特別な推論構成を含む、最先端に近い性能を示す実験を行う。
代表的な比較では, モデル全体の推定時間は RNN-T の2倍, AED の16倍である。
最後に、音声テキストアライメントは、ある層の自己注意重みの中ではっきりと見えており、それは「自己伝達」と呼ばれる。
関連論文リスト
- The Conformer Encoder May Reverse the Time Dimension [53.9351497436903]
我々は,デコーダのクロスアテンション機構の初期動作を分析し,コンバータエンコーダの自己アテンションを促進する。
本稿では,このフリップを回避する方法とアイデアを提案し,ラベル・フレーム配置アライメントを得るための新しい手法について検討する。
論文 参考訳(メタデータ) (2024-10-01T13:39:05Z) - Alignment-Free Training for Transducer-based Multi-Talker ASR [55.1234384771616]
マルチストーカーRNNT(MT-RNNT)は、フロントエンドのソース分離を犠牲にすることなく、認識を実現することを目的としている。
本稿では,MT-RNNTアーキテクチャを採用したMT-RNNT(MT-RNNT-AFT)のアライメントフリートレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-09-30T13:58:11Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - Deliberation of Streaming RNN-Transducer by Non-autoregressive Decoding [21.978994865937786]
この方法は、テキスト機能とオーディオ機能の両方に対応するトランスフォーマーデコーダを各ステップで共有する、いくつかの改善ステップを実行する。
本研究では,ストリーミングRNN-Tモデルの仮説アライメントを条件に,第1パスRNN-Tよりも精度の高い認識結果が得られることを示す。
論文 参考訳(メタデータ) (2021-12-01T01:34:28Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - Stacked Acoustic-and-Textual Encoding: Integrating the Pre-trained
Models into Speech Translation Encoders [30.160261563657947]
エンドツーエンドの音声翻訳では、事前トレーニングが有望です。
Stackedを提案します。
音声翻訳のための音響・テキスト(SATE)法
エンコーダはアコースティックシーケンスを通常どおりに処理することから始まり、その後はアコースティックシーケンスのように振る舞う。
MTエンコーダは入力シーケンスのグローバル表現である。
論文 参考訳(メタデータ) (2021-05-12T16:09:53Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z) - Transformer Transducer: A Streamable Speech Recognition Model with
Transformer Encoders and RNN-T Loss [14.755108017449295]
本稿では,ストリーム音声認識システムで使用可能なTransformerエンコーダを用いたエンドツーエンド音声認識モデルを提案する。
自己アテンションに基づくトランスフォーマー計算ブロックは、オーディオシーケンスとラベルシーケンスの両方を独立に符号化するために使用される。
We present results on the LibriSpeech dataset shows that limiting the left context for self-attention makes decodinglytractable for streaming。
論文 参考訳(メタデータ) (2020-02-07T00:04:04Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。