論文の概要: Reverb: Open-Source ASR and Diarization from Rev
- arxiv url: http://arxiv.org/abs/2410.03930v1
- Date: Fri, 4 Oct 2024 21:13:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 15:21:16.080675
- Title: Reverb: Open-Source ASR and Diarization from Rev
- Title(参考訳): Reverb: RevからオープンソースASRとダイアリゼーション
- Authors: Nishchal Bhandari, Danny Chen, Miguel Ángel del Río Fernández, Natalie Delworth, Jennifer Drexler Fox, Migüel Jetté, Quinten McNamara, Corey Miller, Ondřej Novotný, Ján Profant, Nan Qin, Martin Ratajczak, Jean-Philippe Robichaud,
- Abstract要約: Revは、これらのリリースが音声技術の研究とイノベーションを加速させることを期待している。
今日リリースされた音声認識モデルは、様々な長文の音声認識領域で、既存のすべてのオープンソースの音声認識モデルを上回っている。
- 参考スコア(独自算出の注目度): 3.1056165494004464
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Today, we are open-sourcing our core speech recognition and diarization models for non-commercial use. We are releasing both a full production pipeline for developers as well as pared-down research models for experimentation. Rev hopes that these releases will spur research and innovation in the fast-moving domain of voice technology. The speech recognition models released today outperform all existing open source speech recognition models across a variety of long-form speech recognition domains.
- Abstract(参考訳): 今日では、非商用利用のためのコア音声認識およびダイアリゼーションモデルをオープンソース化しています。
開発者のためのフルプロダクションパイプラインと、実験用のパースダウンリサーチモデルの両方をリリースしています。
Revは、これらのリリースが音声技術の研究とイノベーションを加速させることを期待している。
今日リリースされた音声認識モデルは、様々な長文の音声認識領域で、既存のすべてのオープンソースの音声認識モデルを上回っている。
関連論文リスト
- VHASR: A Multimodal Speech Recognition System With Vision Hotwords [74.94430247036945]
VHASRは、視覚をホットワードとして使用し、モデルの音声認識能力を強化するマルチモーダル音声認識システムである。
VHASRは、画像のキー情報を効果的に利用して、モデルの音声認識能力を高めることができる。
論文 参考訳(メタデータ) (2024-10-01T16:06:02Z) - Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - FunASR: A Fundamental End-to-End Speech Recognition Toolkit [34.69774812281273]
FunASRは、学術研究と産業応用のギャップを埋めるために設計されたオープンソースの音声認識ツールキットである。
FunASRは、大規模産業コーパスでトレーニングされたモデルと、それらをアプリケーションにデプロイする機能を提供する。
論文 参考訳(メタデータ) (2023-05-18T14:45:09Z) - A Survey on Audio Diffusion Models: Text To Speech Synthesis and
Enhancement in Generative AI [64.71397830291838]
生成AIは様々な分野で印象的な性能を示しており、音声合成は興味深い方向である。
拡散モデルを最も一般的な生成モデルとし、テキストから音声への拡張と音声への拡張という2つのアクティブなタスクを試みている。
本研究は,既存の調査を補完する音声拡散モデルに関する調査を行う。
論文 参考訳(メタデータ) (2023-03-23T15:17:15Z) - Hearing voices at the National Library -- a speech corpus and acoustic
model for the Swedish language [0.0]
スウェーデン国立図書館(KB)における音声認識のための新しい音響モデル(ASR)を開発した。
我々は,wav2vec 2.0アーキテクチャを用いて,スウェーデン語における音声視覚リソースのための音声からテキストへのパイプラインを実現するための様々なアプローチを評価する。
文化遺産機関におけるこのような技術の可能性を明らかにすることで、これまでにないオーディオヴィジュアルデータを大量に収集することで、我々は結論づける。
論文 参考訳(メタデータ) (2022-05-06T06:06:00Z) - HiFi-VC: High Quality ASR-Based Voice Conversion [0.0]
音声変換パイプラインを新たに提案する。
提案手法では,音声認識機能,ピッチ追跡,最先端波形予測モデルを用いる。
論文 参考訳(メタデータ) (2022-03-31T10:45:32Z) - An Adaptive Learning based Generative Adversarial Network for One-To-One
Voice Conversion [9.703390665821463]
本稿では,効率の良い1対1話者VCのための適応学習型GANモデルであるALGAN-VCを提案する。
このモデルは、Voice Conversion Challenge (VCC) 2016、2018、2020データセット、および自己準備のスピーチデータセットでテストされています。
生成音声サンプルの主観的および客観的評価は,提案モデルが音声変換タスクをエレガントに実行していることを示した。
論文 参考訳(メタデータ) (2021-04-25T13:44:32Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。