論文の概要: RASR2: The RWTH ASR Toolkit for Generic Sequence-to-sequence Speech
Recognition
- arxiv url: http://arxiv.org/abs/2305.17782v1
- Date: Sun, 28 May 2023 17:48:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 16:47:33.039151
- Title: RASR2: The RWTH ASR Toolkit for Generic Sequence-to-sequence Speech
Recognition
- Title(参考訳): RASR2:RWTH ASR Toolkit for Generic Sequence-to-Sequence Speech Recognition
- Authors: Wei Zhou, Eugen Beck, Simon Berger, Ralf Schl\"uter, Hermann Ney
- Abstract要約: C++で実装された研究指向の汎用S2SデコーダであるRASR2を提案する。
さまざまなS2Sモデル、言語モデル、ラベル単位/トポロジ、ニューラルネットワークアーキテクチャに対して、強力な柔軟性/互換性を提供する。
オープンおよびクローズドボキャブラリーの両方のシナリオに対して,検索モードや設定の充実したサポートを備えた汎用検索フレームワークをベースとした,効率的なデコーディングを提供する。
- 参考スコア(独自算出の注目度): 43.081758770899235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern public ASR tools usually provide rich support for training various
sequence-to-sequence (S2S) models, but rather simple support for decoding
open-vocabulary scenarios only. For closed-vocabulary scenarios, public tools
supporting lexical-constrained decoding are usually only for classical ASR, or
do not support all S2S models. To eliminate this restriction on research
possibilities such as modeling unit choice, we present RASR2 in this work, a
research-oriented generic S2S decoder implemented in C++. It offers a strong
flexibility/compatibility for various S2S models, language models, label
units/topologies and neural network architectures. It provides efficient
decoding for both open- and closed-vocabulary scenarios based on a generalized
search framework with rich support for different search modes and settings. We
evaluate RASR2 with a wide range of experiments on both switchboard and
Librispeech corpora. Our source code is public online.
- Abstract(参考訳): 現代のパブリックASRツールは、様々なシーケンス・ツー・シーケンス(S2S)モデルをトレーニングするためのリッチなサポートを提供するが、むしろオープン語彙シナリオのみをデコードするための単純なサポートを提供する。
クローズドボキャブラリのシナリオでは、語彙制約付きデコードをサポートする公開ツールは、通常、古典的なASRのみに限られる。
モデリングユニットの選択などの研究の可能性に関するこの制限を排除するため、本研究では、c++で実装された研究指向ジェネリックs2sデコーダであるrasr2を紹介する。
さまざまなS2Sモデル、言語モデル、ラベル単位/トポロジ、ニューラルネットワークアーキテクチャに対して、強力な柔軟性/互換性を提供する。
オープンおよびクローズドボキャブラリーの両方のシナリオに対して,検索モードと設定が豊富な汎用検索フレームワークに基づく,効率的なデコーディングを提供する。
RASR2をスイッチボードとLibrispeech corporaの両方で幅広い実験により評価した。
ソースコードはオンラインで公開されている。
関連論文リスト
- SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition [77.28814034644287]
CTCモデルであるSVTRv2を提案する。
SVTRv2は、テキストの不規則性に対処し、言語コンテキストを利用するための新しいアップグレードを導入した。
我々は,SVTRv2を標準ベンチマークと最近のベンチマークの両方で評価した。
論文 参考訳(メタデータ) (2024-11-24T14:21:35Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - REST: Retrieval-Based Speculative Decoding [69.06115086237207]
本稿では,言語モデル生成の高速化を目的とした新しいアルゴリズムであるRetrieval-Based Speculative Decoding(REST)を紹介する。
投機的復号化のためのドラフト言語モデルに依存する従来の方法とは異なり、RESTは検索の力を利用してドラフトトークンを生成する。
単一バッチ環境で7Bと13Bの言語モデルでベンチマークすると、RESTはコードやテキスト生成において1.62Xから2.36Xの大幅なスピードアップを達成する。
論文 参考訳(メタデータ) (2023-11-14T15:43:47Z) - Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen
Large Language Models [69.59125732317972]
本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。
R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。
質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
論文 参考訳(メタデータ) (2023-06-15T20:56:20Z) - A Lexical-aware Non-autoregressive Transformer-based ASR Model [9.500518278458905]
本稿では,音響エンコーダ,音声テキスト共有エンコーダ,音声テキスト共有デコーダで構成される,語彙対応非自己回帰トランスフォーマベース(LA-NAT)ASRフレームワークを提案する。
LA-NATは,語彙情報をASRモデルに認識させることを目的としており,学習した言語知識を活用することにより,より良い結果が得られることが期待されている。
論文 参考訳(メタデータ) (2023-05-18T09:50:47Z) - Unleashing the True Potential of Sequence-to-Sequence Models for
Sequence Tagging and Structure Parsing [18.441585314765632]
シーケンス・ツー・シーケンス(S2S)モデルは、様々なテキスト生成タスクにおいて顕著な成功を収めた。
本研究では,4つのコアタスクに対する包含デコーディングを用いたS2Sモデリングの体系化について述べる。
論文 参考訳(メタデータ) (2023-02-05T01:37:26Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - A Hierarchical Model for Spoken Language Recognition [29.948719321162883]
音声言語認識(SLR)とは、音声サンプルに含まれる言語を決定するための自動処理である。
本稿では,2つのPLDAモデルを訓練し,その1つは高関係言語クラスタのスコアを生成し,もう1つは各クラスタに条件付きスコアを生成するという新しい階層的アプローチを提案する。
この階層的アプローチは、高度に関連性の高い言語を検出する非階層的アプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-01-04T22:10:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。