論文の概要: Weakly Supervised Construction of ASR Systems with Massive Video Data
- arxiv url: http://arxiv.org/abs/2008.01300v2
- Date: Sat, 19 Sep 2020 07:22:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 23:49:14.041522
- Title: Weakly Supervised Construction of ASR Systems with Massive Video Data
- Title(参考訳): 大規模映像データを用いたASRシステムの構築
- Authors: Mengli Cheng, Chengyu Wang, Xu Hu, Jun Huang, Xiaobo Wang
- Abstract要約: 本稿では,大容量ビデオデータを用いたASRシステム構築のための弱教師付きフレームワークを提案する。
光文字認識(OCR)に基づく映像から高音質音声をテキストに整合して抽出する効果的な手法を提案する。
本フレームワークは,マンダリン音声認識のための6つの公開データセットに対して,最先端の結果を容易に生成することができる。
- 参考スコア(独自算出の注目度): 18.5050375783871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building Automatic Speech Recognition (ASR) systems from scratch is
significantly challenging, mostly due to the time-consuming and
financially-expensive process of annotating a large amount of audio data with
transcripts. Although several unsupervised pre-training models have been
proposed, applying such models directly might still be sub-optimal if more
labeled, training data could be obtained without a large cost. In this paper,
we present a weakly supervised framework for constructing ASR systems with
massive video data. As videos often contain human-speech audios aligned with
subtitles, we consider videos as an important knowledge source, and propose an
effective approach to extract high-quality audios aligned with transcripts from
videos based on Optical Character Recognition (OCR). The underlying ASR model
can be fine-tuned to fit any domain-specific target training datasets after
weakly supervised pre-training. Extensive experiments show that our framework
can easily produce state-of-the-art results on six public datasets for Mandarin
speech recognition.
- Abstract(参考訳): スクラッチから自動音声認識(ASR)システムを構築することは、主に大量の音声データを書き起こしで注釈付けする時間と費用がかかるため、非常に困難である。
いくつかの教師なし事前学習モデルが提案されているが、そのようなモデルを直接適用することは、より多くのラベルが付けられれば、大きなコストなしでトレーニングデータを得ることができる。
本稿では,大規模ビデオデータを用いたASRシステム構築のための弱教師付きフレームワークを提案する。
ビデオは字幕に合わせた人間の音声を含むことが多いため,映像を重要な知識源とみなし,光学文字認識(OCR)に基づく映像から高品質な音声を抽出する効果的な手法を提案する。
基礎となるASRモデルは、弱い教師付き事前トレーニングの後、ドメイン固有のターゲットトレーニングデータセットに適合するように微調整することができる。
広範な実験により,マンダリン音声認識のための6つの公開データセットに対して,最新の結果を容易に生成できることを示した。
関連論文リスト
- Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations [16.577870835480585]
本稿では、離散符号を用いたASRシステム構築に関する総合的な分析を行う。
本稿では,量子化スキームや時間領域,スペクトル特徴符号化などの異なる手法について検討する。
同様のビットレートでEncodecを上回るパイプラインを導入する。
論文 参考訳(メタデータ) (2024-07-03T20:51:41Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。