論文の概要: Learning Audio-Visual Speech Representation by Masked Multimodal Cluster
Prediction
- arxiv url: http://arxiv.org/abs/2201.02184v1
- Date: Wed, 5 Jan 2022 17:40:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-07 15:43:37.572061
- Title: Learning Audio-Visual Speech Representation by Masked Multimodal Cluster
Prediction
- Title(参考訳): マスキングマルチモーダルクラスタ予測による視聴覚表現の学習
- Authors: Bowen Shi and Wei-Ning Hsu and Kushal Lakhotia and Abdelrahman Mohamed
- Abstract要約: 音声の映像記録には、相関した音声情報と視覚情報が含まれる。
本稿では,音声視覚音声の自己教師型表現学習フレームワークであるAudio-Visual Hidden Unit BERT(AV-HuBERT)を紹介する。
AV-HuBERTは、唇読解と自動音声認識の両方に有効な強力な音声・視覚音声表現を学習する。
- 参考スコア(独自算出の注目度): 26.27172574676212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video recordings of speech contain correlated audio and visual information,
providing a strong signal for speech representation learning from the speaker's
lip movements and the produced sound. We introduce Audio-Visual Hidden Unit
BERT (AV-HuBERT), a self-supervised representation learning framework for
audio-visual speech, which masks multi-stream video input and predicts
automatically discovered and iteratively refined multimodal hidden units.
AV-HuBERT learns powerful audio-visual speech representation benefiting both
lip-reading and automatic speech recognition. On the largest public lip-reading
benchmark LRS3 (433 hours), AV-HuBERT achieves 32.5% WER with only 30 hours of
labeled data, outperforming the former state-of-the-art approach (33.6%)
trained with a thousand times more transcribed video data (31K hours). The
lip-reading WER is further reduced to 26.9% when using all 433 hours of labeled
data from LRS3 and combined with self-training. Using our audio-visual
representation on the same benchmark for audio-only speech recognition leads to
a 40% relative WER reduction over the state-of-the-art performance (1.3% vs
2.3%). Our code and models are available at
https://github.com/facebookresearch/av_hubert
- Abstract(参考訳): 音声の映像記録は、音声と視覚の相関情報を含み、話者の唇運動と生成された音からの音声表現学習のための強い信号を提供する。
本稿では,マルチストリーム映像入力を隠蔽し,自動検出および繰り返し修正されたマルチモーダル隠れユニットを予測する,音声視覚音声の自己教師型表現学習フレームワークであるAudio-Visual Hidden Unit BERT (AV-HuBERT)を紹介する。
AV-HuBERTは、唇読解と自動音声認識の両方に有効な強力な音声・視覚音声表現を学習する。
LRS3 (433時間)では、AV-HuBERTは30時間のラベル付きデータで32.5%のWERを達成し、1000倍の転写されたビデオデータ(31K時間)でトレーニングされた以前の最先端のアプローチ(33.6%)を上回った。
lrs3から463時間のラベル付きデータをすべて使用し、自己学習と組み合わせると、さらに26.9%に短縮される。
音声のみの音声認識で同じベンチマークでの音声視覚表現を使用することで、最先端の性能(1.3%対2.3%)に対して40%の相対的なWER削減が達成される。
私たちのコードとモデルはhttps://github.com/facebookresearch/av_hubertで利用可能です。
関連論文リスト
- A Cross-Modal Approach to Silent Speech with LLM-Enhanced Recognition [0.0]
サイレント音声インタフェース(SSI)は、無音音声通信のための脳-コンピュータインタフェースの非侵襲的な代替手段を提供する。
我々は,マルチモーダル・ニューラル・オーディオ(MONA)を導入し,多モーダル・アライメントを利用した多モーダル・モデルの学習を行う。
我々の知る限りでは、オープンボキャブラリ上の非侵襲的無声音声認識が15% WERの閾値をクリアした最初の事例である。
論文 参考訳(メタデータ) (2024-03-02T21:15:24Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Robust Self-Supervised Audio-Visual Speech Recognition [29.526786921769613]
本稿では,Audio-Visual HuBERT(AV-HuBERT)に基づく自己教師型音声視覚音声認識フレームワークを提案する。
利用可能な最大のAVSRベンチマークデータセットであるLSS3では、ラベル付きデータの10%未満を使用して、従来の最先端(28.0%対14.1%)よりも50%優れています。
我々のアプローチは、平均して75%以上(25.8%対5.8%)のオーディオベースモデルのWERを削減する。
論文 参考訳(メタデータ) (2022-01-05T18:50:50Z) - Talk, Don't Write: A Study of Direct Speech-Based Image Retrieval [13.40010612226968]
共同表現学習のプロキシとして,音声に基づく画像検索が研究されている。
音声に基づく検索が実際にどれだけうまく機能するかは不明だ。
音声の自発的,アクセント的,あるいは自動書き起こしが難しい場合には,asr-to-textエンコーディングのカスケードを克服できる。
論文 参考訳(メタデータ) (2021-04-05T13:11:40Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - AVLnet: Learning Audio-Visual Language Representations from
Instructional Videos [69.56522471911396]
本稿では,生のビデオ入力から直接共有映像埋め込み空間を学習する自己教師型ネットワークであるAVLnetを紹介する。
AVLnet を HowTo100M でトレーニングし,画像検索およびビデオ検索タスクの評価を行う。
私たちのコード、データ、トレーニングされたモデルは、avlnet.csail.mit.eduでリリースされます。
論文 参考訳(メタデータ) (2020-06-16T14:38:03Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。