Fugu-MT 論文翻訳(概要): Reverb: Open-Source ASR and Diarization from Rev

論文の概要: Reverb: Open-Source ASR and Diarization from Rev

arxiv url: http://arxiv.org/abs/2410.03930v1
Date: Fri, 4 Oct 2024 21:13:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 15:21:16.080675
Title: Reverb: Open-Source ASR and Diarization from Rev
Title（参考訳）: Reverb: RevからオープンソースASRとダイアリゼーション
Authors: Nishchal Bhandari, Danny Chen, Miguel Ángel del Río Fernández, Natalie Delworth, Jennifer Drexler Fox, Migüel Jetté, Quinten McNamara, Corey Miller, Ondřej Novotný, Ján Profant, Nan Qin, Martin Ratajczak, Jean-Philippe Robichaud,
Abstract要約: Revは、これらのリリースが音声技術の研究とイノベーションを加速させることを期待している。今日リリースされた音声認識モデルは、様々な長文の音声認識領域で、既存のすべてのオープンソースの音声認識モデルを上回っている。
参考スコア（独自算出の注目度）: 3.1056165494004464
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Today, we are open-sourcing our core speech recognition and diarization models for non-commercial use. We are releasing both a full production pipeline for developers as well as pared-down research models for experimentation. Rev hopes that these releases will spur research and innovation in the fast-moving domain of voice technology. The speech recognition models released today outperform all existing open source speech recognition models across a variety of long-form speech recognition domains.
Abstract（参考訳）: 今日では、非商用利用のためのコア音声認識およびダイアリゼーションモデルをオープンソース化しています。開発者のためのフルプロダクションパイプラインと、実験用のパースダウンリサーチモデルの両方をリリースしています。 Revは、これらのリリースが音声技術の研究とイノベーションを加速させることを期待している。今日リリースされた音声認識モデルは、様々な長文の音声認識領域で、既存のすべてのオープンソースの音声認識モデルを上回っている。

関連論文リスト

Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction [110.38946048535033]
本稿では,音声認識のための最初のプロダクション対応オープンソースソリューションであるStep-Audioを紹介する。 1) 統合された理解と生成を実現する統合音声テキストマルチモーダルモデル、2) 安価な音声クローニングフレームワークを確立し、蒸留によりオープンソースで軽量なStep-Audio-TTS-3Bモデルを生産する生成音声データエンジン、3) 方言、感情、歌、RAP間の動的調整を可能にする命令駆動型微制御システム、4) ツールコールとロールプレイング機能を備えた強化認知アーキテクチャ。
論文参考訳（メタデータ） (2025-02-17T15:58:56Z)
Unispeaker: A Unified Approach for Multimodality-driven Speaker Generation [66.49076386263509]
本稿では,マルチモーダリティ駆動型話者生成のための統一的アプローチであるUniSpeakerを紹介する。 KV-Formerに基づく統一音声アグリゲータを提案し、多様な音声記述のモダリティを共有音声空間にマッピングするためにソフトコントラストロスを適用した。 UniSpeakerはMVCベンチマークを用いて5つのタスクで評価され、実験結果により、UniSpeakerは従来のモダリティ固有のモデルよりも優れていることが示された。
論文参考訳（メタデータ） (2025-01-11T00:47:29Z)
VHASR: A Multimodal Speech Recognition System With Vision Hotwords [74.94430247036945]
VHASRは、視覚をホットワードとして使用し、モデルの音声認識能力を強化するマルチモーダル音声認識システムである。 VHASRは、画像のキー情報を効果的に利用して、モデルの音声認識能力を高めることができる。
論文参考訳（メタデータ） (2024-10-01T16:06:02Z)
Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文参考訳（メタデータ） (2024-09-19T00:08:28Z)
Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文参考訳（メタデータ） (2024-03-14T01:16:32Z)
One model to rule them all ? Towards End-to-End Joint Speaker Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。 AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文参考訳（メタデータ） (2023-10-02T23:03:30Z)
FunASR: A Fundamental End-to-End Speech Recognition Toolkit [34.69774812281273]
FunASRは、学術研究と産業応用のギャップを埋めるために設計されたオープンソースの音声認識ツールキットである。 FunASRは、大規模産業コーパスでトレーニングされたモデルと、それらをアプリケーションにデプロイする機能を提供する。
論文参考訳（メタデータ） (2023-05-18T14:45:09Z)
A Survey on Audio Diffusion Models: Text To Speech Synthesis and Enhancement in Generative AI [64.71397830291838]
生成AIは様々な分野で印象的な性能を示しており、音声合成は興味深い方向である。拡散モデルを最も一般的な生成モデルとし、テキストから音声への拡張と音声への拡張という2つのアクティブなタスクを試みている。本研究は,既存の調査を補完する音声拡散モデルに関する調査を行う。
論文参考訳（メタデータ） (2023-03-23T15:17:15Z)
Hearing voices at the National Library -- a speech corpus and acoustic model for the Swedish language [0.0]
スウェーデン国立図書館(KB)における音声認識のための新しい音響モデル(ASR)を開発した。我々は,wav2vec 2.0アーキテクチャを用いて,スウェーデン語における音声視覚リソースのための音声からテキストへのパイプラインを実現するための様々なアプローチを評価する。文化遺産機関におけるこのような技術の可能性を明らかにすることで、これまでにないオーディオヴィジュアルデータを大量に収集することで、我々は結論づける。
論文参考訳（メタデータ） (2022-05-06T06:06:00Z)
HiFi-VC: High Quality ASR-Based Voice Conversion [0.0]
音声変換パイプラインを新たに提案する。提案手法では,音声認識機能,ピッチ追跡,最先端波形予測モデルを用いる。
論文参考訳（メタデータ） (2022-03-31T10:45:32Z)
An Adaptive Learning based Generative Adversarial Network for One-To-One Voice Conversion [9.703390665821463]
本稿では,効率の良い1対1話者VCのための適応学習型GANモデルであるALGAN-VCを提案する。このモデルは、Voice Conversion Challenge (VCC) 2016、2018、2020データセット、および自己準備のスピーチデータセットでテストされています。生成音声サンプルの主観的および客観的評価は,提案モデルが音声変換タスクをエレガントに実行していることを示した。
論文参考訳（メタデータ） (2021-04-25T13:44:32Z)
High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文参考訳（メタデータ） (2021-01-31T10:54:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。