論文の概要: Text-Utilization for Encoder-dominated Speech Recognition Models
- arxiv url: http://arxiv.org/abs/2604.26514v1
- Date: Wed, 29 Apr 2026 10:28:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.356971
- Title: Text-Utilization for Encoder-dominated Speech Recognition Models
- Title(参考訳): エンコーダに支配された音声認識モデルのためのテキスト利用
- Authors: Albert Zeyer, Tim Posielek, Ralf Schlüter, Hermann Ney,
- Abstract要約: モーダリティマッチングや動的ダウンサンプリングなど,テキストのみのデータを統合する手法の比較を行う。
LibriSpeechコーパスの実験では、より小さなデコーダを持つ大きなエンコーダは、より大きなデコーダを持つアーキテクチャのパフォーマンスを同等または超えることを示した。
- 参考スコア(独自算出の注目度): 33.610630337318845
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper investigates efficient methods for utilizing text-only data to improve speech recognition, focusing on encoder-dominated models that facilitate faster recognition. We provide a comprehensive comparison of techniques to integrate text-only data, including modality matching and dynamic downsampling to reach text-level representations within the encoder. Our experiments on the LibriSpeech corpus show that a larger encoder with a smaller decoder can equal or surpass the performance of architectures with larger decoders. We demonstrate that simple configurations, such as random duration models, are often more effective than complex alternatives, significantly simplifying the training pipeline. All code and recipes are made publicly available.
- Abstract(参考訳): 本稿では,より高速な音声認識を実現するエンコーダ支配モデルに着目し,テキストのみのデータを活用した音声認識改善のための効率的な手法について検討する。
エンコーダ内のテキストレベル表現に到達するためのモダリティマッチングや動的ダウンサンプリングなど,テキストのみのデータを統合する手法の包括的な比較を行う。
LibriSpeechコーパスの実験では、より小さいデコーダを持つ大きなエンコーダは、より大きなデコーダを持つアーキテクチャの性能と等しくなるか、超えることが示されている。
ランダム持続時間モデルのような単純な構成は、複雑な代替手段よりも効果的であることを示し、トレーニングパイプラインを著しく単純化する。
すべてのコードとレシピが公開されています。
関連論文リスト
- Enhancing Large Language Model-based Speech Recognition by Contextualization for Rare and Ambiguous Words [10.2138250640885]
我々は,テキストプロンプトにキーワードを付与することで文脈認識が可能な,大規模言語モデル(LLM)に基づく自動音声認識(ASR)システムを開発した。
我々はデコーダのみのアーキテクチャを採用し、日本語と英語が支配するデータセットをデコーダとして、スクラッチから事前学習した社内LLMであるPLaMo-100Bをデコーダとして使用する。
論文 参考訳(メタデータ) (2024-08-15T08:50:58Z) - Triple-Encoders: Representations That Fire Together, Wire Together [51.15206713482718]
コントラスト学習(Contrastive Learning)は、バイエンコーダを介して発話間の相対距離を埋め込み空間に符号化する表現学習法である。
本研究では,これら独立に符号化された発話から分散発話混合物を効率よく計算する三重エンコーダを提案する。
トリプルエンコーダはバイエンコーダよりも大幅に改善され、シングルベクトル表現モデルよりもゼロショットの一般化が向上することがわかった。
論文 参考訳(メタデータ) (2024-02-19T18:06:02Z) - Flexible Keyword Spotting based on Homogeneous Audio-Text Embedding [5.697227044927832]
音声対応テキストエンコーダを用いて任意のキーワードを効率的に検出する新しいアーキテクチャを提案する。
テキストエンコーダは,G2Pモデルを用いてテキストを音素に変換し,代表音素ベクトルを用いた埋め込みに変換する。
実験結果から, この手法は, Libriphrase のハードデータセット上での最先端の結果よりも優れていた。
論文 参考訳(メタデータ) (2023-08-12T05:41:15Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - Cross-stitched Multi-modal Encoders [17.387919594858463]
マルチヘッド・クロスモーダル・アテンションを用いた事前学習音声とテキストエンコーダを組み合わせる。
結果として得られるアーキテクチャは、連続的なトークンレベルの分類や発話レベルの予測に使用することができる。
私たちのモデルアーキテクチャはコンパクトでリソース効率が良く、単一のコンシューマGPUカードでトレーニングすることができます。
論文 参考訳(メタデータ) (2022-04-20T05:09:36Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z) - Text Compression-aided Transformer Encoding [77.16960983003271]
本稿では,トランスフォーマーのエンコーディングを強化するために,明示的で暗黙的なテキスト圧縮手法を提案する。
バックボーン情報、つまり入力テキストのgistは、特に焦点を当てていません。
評価の結果,提案した明示的かつ暗黙的なテキスト圧縮手法は,強いベースラインと比較して結果を改善することがわかった。
論文 参考訳(メタデータ) (2021-02-11T11:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。