論文の概要: RASR2: The RWTH ASR Toolkit for Generic Sequence-to-sequence Speech
Recognition
- arxiv url: http://arxiv.org/abs/2305.17782v1
- Date: Sun, 28 May 2023 17:48:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 16:47:33.039151
- Title: RASR2: The RWTH ASR Toolkit for Generic Sequence-to-sequence Speech
Recognition
- Title(参考訳): RASR2:RWTH ASR Toolkit for Generic Sequence-to-Sequence Speech Recognition
- Authors: Wei Zhou, Eugen Beck, Simon Berger, Ralf Schl\"uter, Hermann Ney
- Abstract要約: C++で実装された研究指向の汎用S2SデコーダであるRASR2を提案する。
さまざまなS2Sモデル、言語モデル、ラベル単位/トポロジ、ニューラルネットワークアーキテクチャに対して、強力な柔軟性/互換性を提供する。
オープンおよびクローズドボキャブラリーの両方のシナリオに対して,検索モードや設定の充実したサポートを備えた汎用検索フレームワークをベースとした,効率的なデコーディングを提供する。
- 参考スコア(独自算出の注目度): 43.081758770899235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern public ASR tools usually provide rich support for training various
sequence-to-sequence (S2S) models, but rather simple support for decoding
open-vocabulary scenarios only. For closed-vocabulary scenarios, public tools
supporting lexical-constrained decoding are usually only for classical ASR, or
do not support all S2S models. To eliminate this restriction on research
possibilities such as modeling unit choice, we present RASR2 in this work, a
research-oriented generic S2S decoder implemented in C++. It offers a strong
flexibility/compatibility for various S2S models, language models, label
units/topologies and neural network architectures. It provides efficient
decoding for both open- and closed-vocabulary scenarios based on a generalized
search framework with rich support for different search modes and settings. We
evaluate RASR2 with a wide range of experiments on both switchboard and
Librispeech corpora. Our source code is public online.
- Abstract(参考訳): 現代のパブリックASRツールは、様々なシーケンス・ツー・シーケンス(S2S)モデルをトレーニングするためのリッチなサポートを提供するが、むしろオープン語彙シナリオのみをデコードするための単純なサポートを提供する。
クローズドボキャブラリのシナリオでは、語彙制約付きデコードをサポートする公開ツールは、通常、古典的なASRのみに限られる。
モデリングユニットの選択などの研究の可能性に関するこの制限を排除するため、本研究では、c++で実装された研究指向ジェネリックs2sデコーダであるrasr2を紹介する。
さまざまなS2Sモデル、言語モデル、ラベル単位/トポロジ、ニューラルネットワークアーキテクチャに対して、強力な柔軟性/互換性を提供する。
オープンおよびクローズドボキャブラリーの両方のシナリオに対して,検索モードと設定が豊富な汎用検索フレームワークに基づく,効率的なデコーディングを提供する。
RASR2をスイッチボードとLibrispeech corporaの両方で幅広い実験により評価した。
ソースコードはオンラインで公開されている。
関連論文リスト
- REST: Retrieval-Based Speculative Decoding [69.06115086237207]
本稿では,言語モデル生成の高速化を目的とした新しいアルゴリズムであるRetrieval-Based Speculative Decoding(REST)を紹介する。
投機的復号化のためのドラフト言語モデルに依存する従来の方法とは異なり、RESTは検索の力を利用してドラフトトークンを生成する。
単一バッチ環境で7Bと13Bの言語モデルでベンチマークすると、RESTはコードやテキスト生成において1.62Xから2.36Xの大幅なスピードアップを達成する。
論文 参考訳(メタデータ) (2023-11-14T15:43:47Z) - Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen
Large Language Models [69.59125732317972]
本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。
R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。
質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
論文 参考訳(メタデータ) (2023-06-15T20:56:20Z) - A Lexical-aware Non-autoregressive Transformer-based ASR Model [9.500518278458905]
本稿では,音響エンコーダ,音声テキスト共有エンコーダ,音声テキスト共有デコーダで構成される,語彙対応非自己回帰トランスフォーマベース(LA-NAT)ASRフレームワークを提案する。
LA-NATは,語彙情報をASRモデルに認識させることを目的としており,学習した言語知識を活用することにより,より良い結果が得られることが期待されている。
論文 参考訳(メタデータ) (2023-05-18T09:50:47Z) - Self-Chained Image-Language Model for Video Localization and Question
Answering [66.86740990630433]
ビデオ上での時間的ローカライゼーションとQAに対処するために,SeViLA(Se-Chained Video-Answering)フレームワークを提案する。
SeViLAフレームワークはLocalizerとAnswererの2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2023-05-11T17:23:00Z) - Unleashing the True Potential of Sequence-to-Sequence Models for
Sequence Tagging and Structure Parsing [18.441585314765632]
シーケンス・ツー・シーケンス(S2S)モデルは、様々なテキスト生成タスクにおいて顕著な成功を収めた。
本研究では,4つのコアタスクに対する包含デコーディングを用いたS2Sモデリングの体系化について述べる。
論文 参考訳(メタデータ) (2023-02-05T01:37:26Z) - The THUEE System Description for the IARPA OpenASR21 Challenge [12.458730613670316]
本稿では,IARPAオープン音声認識チャレンジ(OpenASR21)におけるTHUEEチームの音声認識システムについて述べる。
制約条件と制約条件の双方で優れた結果が得られた。
エンコーダ/デコーダに基づくCTC/Attention ASRアーキテクチャにwav2vec2.0事前学習モデルを適用する際には,特徴抽出器が重要な役割を果たすことがわかった。
論文 参考訳(メタデータ) (2022-06-29T14:03:05Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - A Hierarchical Model for Spoken Language Recognition [29.948719321162883]
音声言語認識(SLR)とは、音声サンプルに含まれる言語を決定するための自動処理である。
本稿では,2つのPLDAモデルを訓練し,その1つは高関係言語クラスタのスコアを生成し,もう1つは各クラスタに条件付きスコアを生成するという新しい階層的アプローチを提案する。
この階層的アプローチは、高度に関連性の高い言語を検出する非階層的アプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-01-04T22:10:36Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。