論文の概要: Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification
- arxiv url: http://arxiv.org/abs/2302.11254v1
- Date: Wed, 22 Feb 2023 10:06:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 15:40:42.665090
- Title: Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification
- Title(参考訳): テキスト非依存話者照合のためのモーダル音声・視覚同時学習
- Authors: Meng Liu, Kong Aik Lee, Longbiao Wang, Hanyi Zhang, Chang Zeng, Jianwu
Dang
- Abstract要約: 本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
- 参考スコア(独自算出の注目度): 55.624946113550195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual speech (i.e., lip motion) is highly related to auditory speech due to
the co-occurrence and synchronization in speech production. This paper
investigates this correlation and proposes a cross-modal speech co-learning
paradigm. The primary motivation of our cross-modal co-learning method is
modeling one modality aided by exploiting knowledge from another modality.
Specifically, two cross-modal boosters are introduced based on an audio-visual
pseudo-siamese structure to learn the modality-transformed correlation. Inside
each booster, a max-feature-map embedded Transformer variant is proposed for
modality alignment and enhanced feature generation. The network is co-learned
both from scratch and with pretrained models. Experimental results on the
LRSLip3, GridLip, LomGridLip, and VoxLip datasets demonstrate that our proposed
method achieves 60% and 20% average relative performance improvement over
independently trained audio-only/visual-only and baseline fusion systems,
respectively.
- Abstract(参考訳): 視覚音声(口唇運動)は、音声生成における共起と同期のため、聴覚音声と高度に関連している。
本稿では,この相関関係を調査し,クロスモーダル音声共学習パラダイムを提案する。
クロスモーダル共学習法の主な動機は、別のモダリティからの知識を活用し、あるモダリティをモデル化することである。
具体的には,2つのクロスモーダルブースタを視聴覚疑似シアム構造に基づいて導入し,モーダリティ変換相関を学習する。
各ブースターの内部では、モダリティアライメントと機能生成の強化のために、max-feature-map組み込みトランスフォーマティブが提案されている。
ネットワークはスクラッチと事前訓練されたモデルの両方で構築されている。
LRSLip3, GridLip, LomGridLip および VoxLip を用いた実験結果から,本手法は独立に訓練された音声のみ, 視覚のみ, ベースライン融合システムに対して, 平均性能を60%, 20%向上させることを示した。
関連論文リスト
- Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - A Self-Adjusting Fusion Representation Learning Model for Unaligned
Text-Audio Sequences [16.38826799727453]
融合表現を学習するために各モダリティの関連情報を統合する方法は、マルチモーダル学習における中心的な課題の1つとなっている。
本稿では,不整合テキストや音声シーケンスから直接,頑健な相互拡散表現を学習するために,自己調整型融合表現学習モデルを提案する。
実験結果から,本モデルでは不整合テキスト・オーディオ・シーケンスにおける全ての指標の性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2022-11-12T13:05:28Z) - Leveraging Uni-Modal Self-Supervised Learning for Multimodal
Audio-Visual Speech Recognition [23.239078852797817]
マルチモーダル音声視覚音声認識(AVSR)の推進に一様自己教師型学習を活用する。
特に、私たちはまず大規模なユニモーダルデータセットでオーディオとビジュアルエンコーダをトレーニングし、その後、両方のエンコーダのコンポーネントをより大きなマルチモーダルフレームワークに統合します。
本モデルは,単語レベルと文レベルの両方のAVSRタスクに対して実験的に検証される。
論文 参考訳(メタデータ) (2022-02-24T15:12:17Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。