論文の概要: EURO: ESPnet Unsupervised ASR Open-source Toolkit
- arxiv url: http://arxiv.org/abs/2211.17196v3
- Date: Sun, 21 May 2023 00:56:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 04:57:24.390895
- Title: EURO: ESPnet Unsupervised ASR Open-source Toolkit
- Title(参考訳): EURO: ESPnet による教師なし ASR オープンソースツールキット
- Authors: Dongji Gao and Jiatong Shi and Shun-Po Chuang and Leibny Paola Garcia
and Hung-yi Lee and Shinji Watanabe and Sanjeev Khudanpur
- Abstract要約: 本稿では、教師なし自動音声認識(UASR)のためのエンドツーエンドオープンソースツールキットであるESPnet Unsupervised ASR Open-source Toolkit(EURO)について述べる。
EUROは、Wav2vec-Uが導入した最先端のUASR学習手法を採用し、自己教師付き音声表現と敵の訓練を活用している。
3つの主流な自己教師型モデルがこのツールキットの有効性を示し、TIMITとLibriSpeechデータセット上で最先端のUASR性能を達成する。
- 参考スコア(独自算出の注目度): 92.57256779851095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes the ESPnet Unsupervised ASR Open-source Toolkit (EURO),
an end-to-end open-source toolkit for unsupervised automatic speech recognition
(UASR). EURO adopts the state-of-the-art UASR learning method introduced by the
Wav2vec-U, originally implemented at FAIRSEQ, which leverages self-supervised
speech representations and adversarial training. In addition to wav2vec2, EURO
extends the functionality and promotes reproducibility for UASR tasks by
integrating S3PRL and k2, resulting in flexible frontends from 27
self-supervised models and various graph-based decoding strategies. EURO is
implemented in ESPnet and follows its unified pipeline to provide UASR recipes
with a complete setup. This improves the pipeline's efficiency and allows EURO
to be easily applied to existing datasets in ESPnet. Extensive experiments on
three mainstream self-supervised models demonstrate the toolkit's effectiveness
and achieve state-of-the-art UASR performance on TIMIT and LibriSpeech
datasets. EURO will be publicly available at https://github.com/espnet/espnet,
aiming to promote this exciting and emerging research area based on UASR
through open-source activity.
- Abstract(参考訳): 本稿では、教師なし自動音声認識(UASR)のためのエンドツーエンドオープンソースツールキットであるESPnet Unsupervised ASR Open-source Toolkit(EURO)について述べる。
EUROは、Wav2vec-Uによって導入された最先端のUASR学習手法を採用しており、当初はFAIRSEQで実装されていた。
wav2vec2に加えて、EUROは機能を拡張し、S3PRLとk2を統合することでUASRタスクの再現性を促進する。
EUROはESPnetで実装され、統一パイプラインに従ってUASRレシピを完全なセットアップで提供する。
これによりパイプラインの効率が向上し、espnetの既存のデータセットにユーロを簡単に適用できるようになる。
3つの主流な自己教師型モデルに対する大規模な実験は、TIMITおよびLibriSpeechデータセット上でツールキットの有効性を示し、最先端のUASR性能を実現する。
EUROはhttps://github.com/espnet/espnetで公開され、オープンソース活動を通じてUASRに基づくこのエキサイティングで新興の研究領域を促進することを目的としている。
関連論文リスト
- Features that Make a Difference: Leveraging Gradients for Improved Dictionary Learning [4.051777802443125]
スパースオートエンコーダ(SAE)は、ニューラルネットワーク表現を抽出するための有望なアプローチである。
我々は、TopKアクティベーション関数を増強することにより、$k$-sparseのオートエンコーダアーキテクチャを変更するGradient SAEを紹介する。
g-SAEが任意の文脈でモデルを操る上で平均的に効果的である潜伏者を学ぶ証拠が見つかる。
論文 参考訳(メタデータ) (2024-11-15T18:03:52Z) - Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - Multilingual Speech Recognition using Knowledge Transfer across Learning
Processes [15.927513451432946]
実験結果から,WER全体の3.55%の相対的な減少が得られた。
LEAPとSSLの組み合わせにより、言語IDを使用する場合、WER全体の3.51%が相対的に減少する。
論文 参考訳(メタデータ) (2021-10-15T07:50:27Z) - Self-play Learning Strategies for Resource Assignment in Open-RAN
Networks [3.763743638851161]
open radio access network (oran) は、将来のモバイルデータネットワークのコストを削減し、アクセスを民主化する目的で開発されている。
ORANでは、ネットワーク機能はリモートユニット(RU)、分散ユニット(DU)、中央ユニット(CU)に分解される。
論文 参考訳(メタデータ) (2021-03-03T19:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。