論文の概要: Lego-Features: Exporting modular encoder features for streaming and
deliberation ASR
- arxiv url: http://arxiv.org/abs/2304.00173v1
- Date: Fri, 31 Mar 2023 23:33:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 19:30:36.759359
- Title: Lego-Features: Exporting modular encoder features for streaming and
deliberation ASR
- Title(参考訳): Lego-Features:ストリーミングと検討のためのモジュールエンコーダ機能をエクスポート
- Authors: Rami Botros, Rohit Prabhavalkar, Johan Schalkwyk, Ciprian Chelba, Tara
N. Sainath, Fran\c{c}oise Beaufays
- Abstract要約: モジュール化されたエンコーダ表現によるエンコーダの構築を探求し始めている作業の上に構築する。
私たちのフレームワークは、既存のエンコードされた表現の上に構築され、Lego-Featuresと呼ばれるモジュラー機能に変換します。
RNN-TやLASデコーダでテストすると,Lego-Featuresは強力であることがわかった。
- 参考スコア(独自算出の注目度): 34.23347991756358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In end-to-end (E2E) speech recognition models, a representational
tight-coupling inevitably emerges between the encoder and the decoder. We build
upon recent work that has begun to explore building encoders with modular
encoded representations, such that encoders and decoders from different models
can be stitched together in a zero-shot manner without further fine-tuning.
While previous research only addresses full-context speech models, we explore
the problem in a streaming setting as well. Our framework builds on top of
existing encoded representations, converting them to modular features, dubbed
as Lego-Features, without modifying the pre-trained model. The features remain
interchangeable when the model is retrained with distinct initializations.
Though sparse, we show that the Lego-Features are powerful when tested with
RNN-T or LAS decoders, maintaining high-quality downstream performance. They
are also rich enough to represent the first-pass prediction during two-pass
deliberation. In this scenario, they outperform the N-best hypotheses, since
they do not need to be supplemented with acoustic features to deliver the best
results. Moreover, generating the Lego-Features does not require beam search or
auto-regressive computation. Overall, they present a modular, powerful and
cheap alternative to the standard encoder output, as well as the N-best
hypotheses.
- Abstract(参考訳): エンドツーエンド(e2e)音声認識モデルでは、エンコーダとデコーダの間に必然的に表現的密結合が発生する。
我々は,モジュール型エンコーダを用いたエンコーダの構築と,異なるモデルからのエンコーダとデコーダを,それ以上の微調整を行なわずにゼロショットで縫合できるような,最近の研究を基盤としている。
これまでの研究では、フルコンテキストの音声モデルにのみ対応していたが、ストリーミング環境でも同様の問題を探る。
私たちのフレームワークは、既存のエンコードされた表現の上に構築され、事前トレーニングされたモデルを変更することなく、lego-featuresと呼ばれるモジュール機能に変換します。
モデルが異なる初期化で再トレーニングされたとき、これらの機能は交換可能である。
RNN-TやLASデコーダでテストすると,Lego-Featuresは強力であり,高品質なダウンストリーム性能を維持している。
また、2パスの審議中に1パスの予測を表現できるほど豊かである。
このシナリオでは、最高の結果を得るために音響的特徴を補う必要がないため、N-best仮説よりも優れている。
さらに、lego機能の生成にはビーム探索や自動回帰計算は必要ない。
全体としては、標準エンコーダ出力とN-best仮説の代替として、モジュラーで強力で安価である。
関連論文リスト
- Are Decoder-Only Large Language Models the Silver Bullet for Code Search? [32.338318300589776]
本研究では,コード検索のためのデコーダのみの大規模言語モデルについて,初めて体系的な検討を行った。
2つの微調整法、2つのデータセット、3つのモデルサイズを用いて、最先端デコーダのみの9つのモデルを評価する。
この結果,微調整のCodeGemmaはUniXcoderのようなエンコーダのみのモデルよりも大幅に優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T17:05:25Z) - Chunked Attention-based Encoder-Decoder Model for Streaming Speech
Recognition [42.04873382667665]
本稿では,デコーダ,あるいはデコーダとデコーダのいずれにおいても,チャンクと呼ばれる既定の固定サイズのウィンドウで動作する,ストリーム可能な注目型エンコーダ・デコーダモデルについて検討する。
特別なエンディング・オブ・チャンクのシンボルは、あるチャンクから次のチャンクへと進化し、従来のエンディング・オブ・シーケンスのシンボルを効果的に置き換える。
提案モデルでは,非可読な変種と比較して競争性能を保ち,長文音声に非常によく対応していることがわかった。
論文 参考訳(メタデータ) (2023-09-15T14:36:24Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - Inflected Forms Are Redundant in Question Generation Models [27.49894653349779]
本稿では,エンコーダ・デコーダ・フレームワークを用いた質問生成の性能向上手法を提案する。
まず,エンコーダの入力から入力された単語を識別し,根語に置き換える。
次に,エンコード・デコーダ・フレームワークにおける以下の動作の組合せとしてQGを適用することを提案する。質問語の生成,ソースシーケンスからの単語のコピー,単語変換型の生成である。
論文 参考訳(メタデータ) (2023-01-01T13:08:11Z) - LegoNN: Building Modular Encoder-Decoder Models [117.47858131603112]
最先端のエンコーダ・デコーダモデルは、原子単位として構築され、訓練されたエンドツーエンドである。
モデルのどのコンポーネントも他のコンポーネントなしでは(再)使用できないため、部品の共有は不可能です。
LegoNNは、エンコーダ-デコーダアーキテクチャを、微調整を必要とせずに、その部品を他のタスクに適用できる方法で構築する手順である。
論文 参考訳(メタデータ) (2022-06-07T14:08:07Z) - ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking
Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。
文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。
このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T06:26:29Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z) - Learning to Encode Position for Transformer with Continuous Dynamical
Model [88.69870971415591]
本研究では,トランスフォーマーモデルなどの非リカレントモデルの位置情報をエンコードする新しい学習方法を提案する。
このような力学系による位置指数に沿った符号化結果の進化をモデル化する。
論文 参考訳(メタデータ) (2020-03-13T00:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。