論文の概要: OxfordVGG Submission to the EGO4D AV Transcription Challenge
- arxiv url: http://arxiv.org/abs/2307.09006v1
- Date: Tue, 18 Jul 2023 06:48:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 16:13:22.725435
- Title: OxfordVGG Submission to the EGO4D AV Transcription Challenge
- Title(参考訳): オックスフォードVGがEGO4D AV転写チャレンジに参加
- Authors: Jaesung Huh, Max Bain and Andrew Zisserman
- Abstract要約: 本報告では,OxfordVG チームによる EGO4D Audio-Visual (AV) Automatic Speech Recognition Challenge 2023 の提出の技術的詳細について述べる。
本稿では,WhisperXについて述べる。WhisperXは,単語レベルの時間的アライメントを持つ長音の音声の効率的な書き起こしシステムであり,また2つのテキスト正規化器を公開している。
最終提出書では、挑戦テストセットでワードエラー率(WER)の56.2%を獲得し、リーダーボードで1位にランクインした。
- 参考スコア(独自算出の注目度): 81.13727731938582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report presents the technical details of our submission on the EGO4D
Audio-Visual (AV) Automatic Speech Recognition Challenge 2023 from the
OxfordVGG team. We present WhisperX, a system for efficient speech
transcription of long-form audio with word-level time alignment, along with two
text normalisers which are publicly available. Our final submission obtained
56.0% of the Word Error Rate (WER) on the challenge test set, ranked 1st on the
leaderboard. All baseline codes and models are available on
https://github.com/m-bain/whisperX.
- Abstract(参考訳): 本報告では,OxfordVG チームによる EGO4D Audio-Visual (AV) Automatic Speech Recognition Challenge 2023 の提出の技術的詳細について述べる。
本稿では,単語レベルの時間アライメントを用いた長文音声の効率的な音声認識システムであるwhisperxについて述べる。
最終提出書では、挑戦テストセットでワードエラー率(WER)の56.0%を獲得し、リーダーボードで1位となった。
すべてのベースラインコードとモデルはhttps://github.com/m-bain/whisperXで入手できる。
関連論文リスト
- The X-LANCE Technical Report for Interspeech 2024 Speech Processing Using Discrete Speech Unit Challenge [20.903716738950468]
本稿では,TS (音響+ヴォコーダ) , SVS, ASR トラック用の SJTU X-LANCE グループが開発したシステムについて述べる。
特に、トレーニングセット全体と1時間トレーニングデータの両方で、TTSトラックのリーダーボードで1位を獲得しました。
論文 参考訳(メタデータ) (2024-04-09T07:37:41Z) - Voxtlm: unified decoder-only models for consolidating speech
recognition/synthesis and speech/text continuation tasks [61.3055230762097]
音声認識,音声合成,テキスト生成,音声継続の4つのタスクを実行できるデコーダのみの言語モデルであるVoxtLMを提案する。
VoxtLMは、テキスト語彙を自己教師付き音声特徴から独立した音声トークンと統合し、マルチタスク学習を可能にするために特別なトークンを使用する。
論文 参考訳(メタデータ) (2023-09-14T03:13:18Z) - ÌròyìnSpeech: A multi-purpose Yorùbá Speech Corpus [7.97238074132292]
IroyinSpeechは、高品質で現代のヨルブの音声データの量を増やしたいという願望に影響された新しいコーパスである。
オープン・ライセンスCC-BY-4.0でニュース・クリエイティブ・ライティング・ドメインから約23,000のテキストをキュレートした。
論文 参考訳(メタデータ) (2023-07-29T20:42:50Z) - STHG: Spatial-Temporal Heterogeneous Graph Learning for Advanced
Audio-Visual Diarization [3.9886149789339327]
本稿では,Ego4D Challenge 2023の音声・視覚ダイアリゼーションタスクにおけるSTHGという新しい手法を紹介する。
キーとなるイノベーションは、単一の、統一された異種グラフ学習フレームワークを使用して、ビデオ内のすべての話者をモデル化することです。
最終手法はEgo4Dのテストセット上で61.1%のDERを得るが、これは昨年の勝者と同様に全てのベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2023-06-18T17:55:02Z) - AVATAR submission to the Ego4D AV Transcription Challenge [79.21857972093332]
我々のパイプラインはAVATAR(AV-ASRのアーティファクトエンコーダデコーダモデル)に基づいており、スペクトログラムとRGB画像の早期融合を行う。
最終方法は,挑戦テストセットにおいて68.40のWERを達成し,ベースラインを43.7%上回り,挑戦に勝つ。
論文 参考訳(メタデータ) (2022-11-18T01:03:30Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z) - The NTT DCASE2020 Challenge Task 6 system: Automated Audio Captioning
with Keywords and Sentence Length Estimation [49.41766997393417]
本報告では, 音響シーン・イベントの検出・分類に関わるシステムについて述べる。
本論文は,音声の自動字幕化における2つの不確定性,すなわち,単語選択不確定性と文長不確定性に焦点をあてる。
マルチタスク学習によりキーワードと文長を推定することにより,主字幕生成と部分不確定化を同時に解決する。
論文 参考訳(メタデータ) (2020-07-01T04:26:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。