論文の概要: OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on
E-Branchformer
- arxiv url: http://arxiv.org/abs/2401.16658v1
- Date: Tue, 30 Jan 2024 01:22:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 16:45:56.148384
- Title: OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on
E-Branchformer
- Title(参考訳): OWSM v3.1:E-Branchformerに基づくより良く高速なオープンウィスパースタイル音声モデル
- Authors: Yifan Peng, Jinchuan Tian, William Chen, Siddhant Arora, Brian Yan,
Yui Sudo, Muhammad Shakeel, Kwanghee Choi, Jiatong Shi, Xuankai Chang,
Jee-weon Jung, Shinji Watanabe
- Abstract要約: Open Whisperスタイルの音声モデル(OWSM)は、OpenAIのWhisperを公開データとオープンソースツールキットを使って再現した。
本稿では,E-BranchformerをベースとしたOWSM v3.1モデルを2つのスケール,すなわち100Mと1Bで提示する。
1BモデルはE-Branchformerをベースとした最大の音声モデルであり、一般に公開されている。
- 参考スコア(独自算出の注目度): 69.57876008104486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have advocated for fully open foundation models to promote
transparency and open science. As an initial step, the Open Whisper-style
Speech Model (OWSM) reproduced OpenAI's Whisper using publicly available data
and open-source toolkits. With the aim of reproducing Whisper, the previous
OWSM v1 through v3 models were still based on Transformer, which might lead to
inferior performance compared to other state-of-the-art speech encoders. In
this work, we aim to improve the performance and efficiency of OWSM without
extra training data. We present E-Branchformer based OWSM v3.1 models at two
scales, i.e., 100M and 1B. The 1B model is the largest E-Branchformer based
speech model that has been made publicly available. It outperforms the previous
OWSM v3 in a vast majority of evaluation benchmarks, while demonstrating up to
25% faster inference speed. We publicly release the data preparation scripts,
pre-trained models and training logs.
- Abstract(参考訳): 近年の研究では、透明性とオープンサイエンスを促進するために完全にオープンな基礎モデルが提唱されている。
最初のステップとして、Open Whisperスタイルの音声モデル(OWSM)は、公開データとオープンソースツールキットを使用してOpenAIのWhisperを再現した。
Whisperを再現する目的で、以前のOWSM v1からv3モデルはまだTransformerをベースとしており、他の最先端の音声エンコーダに比べて性能が劣る可能性がある。
本研究では、追加のトレーニングデータなしでOWSMの性能と効率を向上させることを目的とする。
本稿では,E-Branchformerに基づくOWSM v3.1モデルを2つのスケール,すなわち100Mと1Bで提示する。
1bモデルは、一般公開されている最大のe-branchformerベースの音声モデルである。
これは以前のOWSM v3よりも多くの評価ベンチマークで優れており、最大25%高速な推論速度を示している。
データ準備スクリプト、事前トレーニングされたモデル、トレーニングログを公開します。
関連論文リスト
- MooER: LLM-based Speech Recognition and Translation Models from Moore Threads [13.02816167879662]
MooERはムーアスレッドの大規模自動音声認識(ASR)/自動音声翻訳(AST)モデルである。
オープンソースおよび自己収集音声データを含む5000hの擬似ラベル付きデータセットをトレーニングに使用する。
Covost2 Zh2enテストセットで行った実験は、我々のモデルが他のオープンソースのLLMよりも優れていることを示唆している。
論文 参考訳(メタデータ) (2024-08-09T14:43:56Z) - On the Effects of Heterogeneous Data Sources on Speech-to-Text Foundation Models [57.97940182536942]
Open Whisperスタイルの音声モデル(OWSM)シリーズが導入された。
OWSMモデルは25の公開音声データセットに基づいて訓練される。
OWSM v3.2を導入し、このデータの不均一性の影響を調査し、対処することで、先行モデルを改善する。
論文 参考訳(メタデータ) (2024-06-13T16:22:37Z) - No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - OWSM-CTC: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification [44.94458898538114]
Connectionist Temporal Classification (CTC)に基づく新しいエンコーダのみの音声基礎モデルOWSM-CTCを提案する。
多言語自動音声認識(ASR)、音声翻訳(ST)、言語識別(LID)のための180k時間の公開音声データをトレーニングする。
エンコーダデコーダOWSMと比較して、OWSM-CTCはASRとSTの24%の相対的改善を達成し、より堅牢で推論の3倍から4倍高速である。
論文 参考訳(メタデータ) (2024-02-20T02:04:38Z) - Exploring the limits of decoder-only models trained on public speech
recognition corpora [36.446905777292066]
Decoder-Only Transformer for ASR (DOTA) モデルは、ほぼ全ての英語のASRベンチマークおよび15のテストセット中7つのWhisper large-v3で、エンコーダ-デコーダのオープンソースレプリケーション(OWSM)を総じて上回っている。
論文 参考訳(メタデータ) (2024-01-31T23:29:42Z) - Reproducing Whisper-Style Training Using an Open-Source Toolkit and
Publicly Available Data [75.7383558074758]
本研究はWhisperスタイル音声モデル(OWSM)を提案する。
OWSMはオープンソースツールキットと公開データを使ってWhisperスタイルのトレーニングを再現する。
データ準備、トレーニング、推論、スコアリングに使用されるすべてのスクリプトと、オープンサイエンスを促進するための事前訓練されたモデルとトレーニングログを公開します。
論文 参考訳(メタデータ) (2023-09-25T05:01:34Z) - The False Promise of Imitating Proprietary LLMs [158.65692029352584]
より弱い言語モデルを安価に改善するための新しい方法は、より強力なモデルからの出力に対してそれを微調整することである。
このアプローチは、より弱いオープンソースモデルを使用して、プロプライエタリなモデルの機能を安価に模倣することを目指している。
まず、様々なベースモデルサイズを用いてChatGPTを模倣する一連のLMを微調整する。
次に、群衆レーダと標準NLPベンチマークを用いてモデルを評価する。
論文 参考訳(メタデータ) (2023-05-25T05:00:12Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。