論文の概要: Leveraging Uni-Modal Self-Supervised Learning for Multimodal
Audio-Visual Speech Recognition
- arxiv url: http://arxiv.org/abs/2203.07996v1
- Date: Thu, 24 Feb 2022 15:12:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 00:40:36.222939
- Title: Leveraging Uni-Modal Self-Supervised Learning for Multimodal
Audio-Visual Speech Recognition
- Title(参考訳): マルチモーダル音声認識における一様自己監督学習の活用
- Authors: Xichen Pan, Peiyu Chen, Yichen Gong, Helong Zhou, Xinbing Wang,
Zhouhan Lin
- Abstract要約: マルチモーダル音声視覚音声認識(AVSR)の推進に一様自己教師型学習を活用する。
特に、私たちはまず大規模なユニモーダルデータセットでオーディオとビジュアルエンコーダをトレーニングし、その後、両方のエンコーダのコンポーネントをより大きなマルチモーダルフレームワークに統合します。
本モデルは,単語レベルと文レベルの両方のAVSRタスクに対して実験的に検証される。
- 参考スコア(独自算出の注目度): 23.239078852797817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training Transformer-based models demands a large amount of data, while
obtaining parallel aligned and labelled data in multimodality is rather
cost-demanding, especially for audio-visual speech recognition (AVSR). Thus it
makes a lot of sense to make use of unlabelled uni-modal data. On the other
side, although the effectiveness of large-scale self-supervised learning is
well established in both audio and visual modalities, how to integrate those
pre-trained models into a multimodal scenario remains underexplored. In this
work, we successfully leverage uni-modal self-supervised learning to promote
the multimodal AVSR. In particular, we first train audio and visual encoders on
a large-scale uni-modal dataset, then we integrate components of both encoders
into a larger multimodal framework which learns to recognize paired
audio-visual data into characters through a combination of CTC and seq2seq
decoding. We show that both components inherited from uni-modal self-supervised
learning cooperate well, resulting in that the multimodal framework yields
competitive results through fine-tuning. Our model is experimentally validated
on both word-level and sentence-level AVSR tasks. Especially, even without an
external language model, our proposed model raises the state-of-the-art
performances on the widely accepted Lip Reading Sentences 2 (LRS2) dataset by a
large margin, with a relative improvement of 30%.
- Abstract(参考訳): トランスフォーマーをベースとしたトレーニングモデルは大量のデータを必要とする一方で、並列アライメントとラベル付きデータをマルチモーダルで取得することは、特に音声視覚音声認識(AVSR)において、かなりコストがかかる。
したがって、ラベルなしのユニモーダルデータを使うのは理にかなっている。
一方、大規模自己教師型学習の有効性は、音声と視覚の両方において十分に確立されているものの、これらの事前学習されたモデルをマルチモーダルシナリオに統合する方法はまだ未定である。
本研究では,マルチモーダルAVSRを促進するために,一様自己教師学習をうまく活用する。
特に、我々はまず大規模なユニモーダルデータセット上でオーディオとビジュアルエンコーダを訓練し、その後、CTCとSeq2seqデコーディングの組み合わせにより、ペア化されたオーディオと視覚データを文字に認識することを学ぶ、より大規模なマルチモーダルフレームワークに統合する。
単調な自己教師付き学習から受け継いだ2つのコンポーネントが協調的に連携し,マルチモーダルフレームワークが微調整によって競争的な結果をもたらすことを示した。
我々のモデルは単語レベルと文レベルの両方のAVSRタスクに対して実験的に検証される。
特に,外部言語モデルがなくても,提案モデルは広く受け入れられているリップ読み文2(lrs2)データセットの最先端のパフォーマンスを大きなマージンで向上させ,相対的に30%向上させた。
関連論文リスト
- NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - S3: A Simple Strong Sample-effective Multimodal Dialog System [61.31055673156622]
本稿では,多モーダルダイアログタスクであるS3モデルに対して,概念的にシンプルだが強力なベースラインを提案する。
このシステムは、訓練済みの大規模言語モデル、画像とオーディオのための訓練済みのモダリティエンコーダ、および訓練可能なモダリティプロジェクタに基づいている。
論文 参考訳(メタデータ) (2024-06-26T12:45:43Z) - Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision,
Language, Audio, and Action [46.76487873983082]
Unified-IO 2は、画像、テキスト、オーディオ、アクションの理解と生成が可能な最初の自己回帰型マルチモーダルモデルである。
我々は、多様な情報源から、大規模なマルチモーダル事前学習コーパスをスクラッチからトレーニングする。
単一の統一モデルにより、Unified-IO 2はGRITベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T17:57:06Z) - Unimodal Training-Multimodal Prediction: Cross-modal Federated Learning
with Hierarchical Aggregation [16.308470947384134]
HA-Fedformerは新しいトランスフォーマーベースのモデルで、クライアントでのアンモダルデータセットのみを使用して、単一モダルトレーニングを可能にする。
我々は,マルコフ連鎖モンテカルロサンプリングを用いた局所エンコーダの不確実性を考慮したアグリゲーション法を開発した。
一般的な感情分析ベンチマークであるCMU-MOSIとCMU-MOSEIの実験は、HA-Fedformerが最先端のマルチモーダルモデルを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2023-03-27T07:07:33Z) - Accommodating Audio Modality in CLIP for Multimodal Processing [48.83906067348211]
視覚言語モデルCLIPを拡張し、視覚言語モデルAudioのマルチモーダル処理におけるオーディオモダリティに対応する。
具体的には、モーダル間およびモーダル内コントラスト学習を用いて、オーディオと他のモーダル間の相関について検討する。
提案するCLIP4VLAモデルは,ビデオ検索やビデオキャプションなど,さまざまな下流タスクで検証される。
論文 参考訳(メタデータ) (2023-03-12T06:57:01Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。