論文の概要: Mi-Go: Test Framework which uses YouTube as Data Source for Evaluating
Speech Recognition Models like OpenAI's Whisper
- arxiv url: http://arxiv.org/abs/2309.00329v1
- Date: Fri, 1 Sep 2023 08:31:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 14:00:13.597127
- Title: Mi-Go: Test Framework which uses YouTube as Data Source for Evaluating
Speech Recognition Models like OpenAI's Whisper
- Title(参考訳): Mi-Go:OpenAIのWhisperのような音声認識モデルを評価するためのデータソースとしてYouTubeを使用するテストフレームワーク
- Authors: Tomasz Wojnar, Jaroslaw Hryszko, Adam Roman
- Abstract要約: Mi-Goは汎用音声認識機械学習モデルの性能評価を目的とした新しいテストフレームワークである。
このフレームワークは、YouTubeをリッチで継続的に更新されたデータソースとして活用し、複数の言語、アクセント、方言、話し方、オーディオ品質レベルを考慮に入れている。
- 参考スコア(独自算出の注目度): 0.20718016474717196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article introduces Mi-Go, a novel testing framework aimed at evaluating
the performance and adaptability of general-purpose speech recognition machine
learning models across diverse real-world scenarios. The framework leverages
YouTube as a rich and continuously updated data source, accounting for multiple
languages, accents, dialects, speaking styles, and audio quality levels. To
demonstrate the effectiveness of the framework, the Whisper model, developed by
OpenAI, was employed as a test object. The tests involve using a total of 124
YouTube videos to test all Whisper model versions. The results underscore the
utility of YouTube as a valuable testing platform for speech recognition
models, ensuring their robustness, accuracy, and adaptability to diverse
languages and acoustic conditions. Additionally, by contrasting the
machine-generated transcriptions against human-made subtitles, the Mi-Go
framework can help pinpoint potential misuse of YouTube subtitles, like Search
Engine Optimization.
- Abstract(参考訳): 本稿では,汎用音声認識モデルの性能と適応性を評価するための新しいテストフレームワークであるmi-goについて紹介する。
このフレームワークはYouTubeをリッチで継続的に更新されたデータソースとして活用し、複数の言語、アクセント、方言、話し方、オーディオ品質レベルを考慮に入れている。
フレームワークの有効性を示すために、OpenAIが開発したWhisperモデルがテストオブジェクトとして採用された。
テストには合計124本のyoutubeビデオを使用し、すべてのwhisperモデルバージョンをテストする。
その結果、YouTubeは音声認識モデルにとって貴重なテストプラットフォームであり、その堅牢性、正確性、および多様な言語や音響条件への適応性を保証する。
さらに、機械が生成した字幕と人造字幕との対比により、Mi-Goフレームワークは検索エンジン最適化のようなYouTube字幕の誤用を特定できる。
関連論文リスト
- Natural language guidance of high-fidelity text-to-speech with synthetic
annotations [13.642358232817342]
本稿では,話者識別,スタイル,記録条件の様々な側面をラベル付けするスケーラブルな手法を提案する。
次に、この手法を45k時間データセットに適用し、音声言語モデルを訓練する。
その結果, アクセント, 韻律スタイル, チャネル条件, 音響条件の多岐にわたる高忠実度音声生成が得られた。
論文 参考訳(メタデータ) (2024-02-02T21:29:34Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - An Adaptive Learning based Generative Adversarial Network for One-To-One
Voice Conversion [9.703390665821463]
本稿では,効率の良い1対1話者VCのための適応学習型GANモデルであるALGAN-VCを提案する。
このモデルは、Voice Conversion Challenge (VCC) 2016、2018、2020データセット、および自己準備のスピーチデータセットでテストされています。
生成音声サンプルの主観的および客観的評価は,提案モデルが音声変換タスクをエレガントに実行していることを示した。
論文 参考訳(メタデータ) (2021-04-25T13:44:32Z) - Deep Learning Based Assessment of Synthetic Speech Naturalness [14.463987018380468]
合成音声の自然性に対する新たな客観的予測モデルを提案する。
Text-To-SpeechまたはVoice Conversionシステムの評価に使用できる。
論文 参考訳(メタデータ) (2021-04-23T16:05:20Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - AVLnet: Learning Audio-Visual Language Representations from
Instructional Videos [69.56522471911396]
本稿では,生のビデオ入力から直接共有映像埋め込み空間を学習する自己教師型ネットワークであるAVLnetを紹介する。
AVLnet を HowTo100M でトレーニングし,画像検索およびビデオ検索タスクの評価を行う。
私たちのコード、データ、トレーニングされたモデルは、avlnet.csail.mit.eduでリリースされます。
論文 参考訳(メタデータ) (2020-06-16T14:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。