論文の概要: Multi-Modal Multi-Correlation Learning for Audio-Visual Speech
Separation
- arxiv url: http://arxiv.org/abs/2207.01197v1
- Date: Mon, 4 Jul 2022 04:53:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 03:48:32.241488
- Title: Multi-Modal Multi-Correlation Learning for Audio-Visual Speech
Separation
- Title(参考訳): 視聴覚分離のためのマルチモーダルマルチ相関学習
- Authors: Xiaoyu Wang, Xiangyu Kong, Xiulian Peng, Yan Lu
- Abstract要約: 音声・視覚的音声分離作業を対象としたマルチモーダル・マルチ相関学習フレームワークを提案する。
我々は,(1)識別相関(音色と顔の属性間の相関),(2)音声相関という2つの重要な相関関係を定義した。
この2つの相関関係を最大化するために,コントラスト学習法や逆学習法を適用した。
- 参考スコア(独自算出の注目度): 38.75352529988137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we propose a multi-modal multi-correlation learning framework
targeting at the task of audio-visual speech separation. Although previous
efforts have been extensively put on combining audio and visual modalities,
most of them solely adopt a straightforward concatenation of audio and visual
features. To exploit the real useful information behind these two modalities,
we define two key correlations which are: (1) identity correlation (between
timbre and facial attributes); (2) phonetic correlation (between phoneme and
lip motion). These two correlations together comprise the complete information,
which shows a certain superiority in separating target speaker's voice
especially in some hard cases, such as the same gender or similar content. For
implementation, contrastive learning or adversarial training approach is
applied to maximize these two correlations. Both of them work well, while
adversarial training shows its advantage by avoiding some limitations of
contrastive learning. Compared with previous research, our solution
demonstrates clear improvement on experimental metrics without additional
complexity. Further analysis reveals the validity of the proposed architecture
and its good potential for future extension.
- Abstract(参考訳): 本稿では,音声と視覚の音声分離を対象とするマルチモーダル多相関学習フレームワークを提案する。
これまでの努力は、オーディオと視覚のモダリティの組み合わせに大きく取り組んできたが、そのほとんどは、オーディオと視覚的特徴の直接的な結合を採用するだけである。
これら2つのモダリティの真に有用な情報を活用するために,(1)識別相関(音色と顔の属性),(2)音声相関(音素と唇の動き)という2つの重要な相関関係を定義した。
これら2つの相関関係は完全な情報で構成されており、同一の性別や類似した内容など、特に難しい場合において、ターゲット話者の声の分離において一定の優位性を示す。
この2つの相関関係を最大化するために,コントラスト学習あるいは逆学習アプローチを適用した。
どちらもうまく機能するが、対照的な学習の制限を避けることで、敵対的な訓練が優位性を示している。
従来の研究と比較すると, 追加の複雑さを伴わずに, 実験値の明確な改善が示される。
さらなる分析により,提案アーキテクチャの有効性と今後の拡張の可能性を明らかにする。
関連論文リスト
- Fuse after Align: Improving Face-Voice Association Learning via Multimodal Encoder [22.836016610542387]
本稿では,音声・顔の関連性を学習するための教師なし環境における新しい枠組みを提案する。
コントラスト学習後にマルチモーダルエンコーダを導入し,二分分類によって問題に対処することにより,埋め込み内の暗黙的な情報をより効果的かつ多様な方法で学習することができる。
実験的な証拠は、我々のフレームワークが音声照合、検証、検索タスクにおいて最先端の結果を達成することを証明している。
論文 参考訳(メタデータ) (2024-04-15T07:05:14Z) - Speed Co-Augmentation for Unsupervised Audio-Visual Pre-training [102.18680666349806]
本稿では,音声とビデオデータの再生速度をランダムに変更する高速化手法を提案する。
実験の結果,提案手法は,バニラ音声・視覚的コントラスト学習と比較して,学習表現を著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-09-25T08:22:30Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Analysis of Joint Speech-Text Embeddings for Semantic Matching [3.6423306784901235]
ペア音声と書き起こし入力の距離を最小化することにより,セマンティックマッチングのために訓練された共同音声テキスト埋め込み空間について検討する。
我々は,事前学習とマルチタスクの両方のシナリオを通じて,音声認識を組み込む方法を拡張した。
論文 参考訳(メタデータ) (2022-04-04T04:50:32Z) - Look\&Listen: Multi-Modal Correlation Learning for Active Speaker
Detection and Speech Enhancement [18.488808141923492]
ADENetは,音声・視覚モデルの共同学習による話者検出と音声強調を実現するために提案されている。
聴覚と視覚ストリームの相互関係は,マルチタスク学習の課題に対して有望な解決法である。
論文 参考訳(メタデータ) (2022-03-04T09:53:19Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - MultiQT: Multimodal Learning for Real-Time Question Tracking in Speech [4.384576489684272]
本稿では,音声中のリアルタイムシーケンスラベリングに対する新しいアプローチを提案する。
本モデルでは、音声とそれ自身のテキスト表現を2つの異なるモダリティまたはビューとして扱う。
テキストや音声のみと比較して,2つのモードから共同学習を行うことで大きな効果が得られた。
論文 参考訳(メタデータ) (2020-05-02T12:16:14Z) - Mutual Information Maximization for Effective Lip Reading [99.11600901751673]
本稿では,局所的特徴レベルとグローバルなシーケンスレベルの両方について,相互情報制約を導入することを提案する。
これら2つの利点を組み合わせることで, 有効な唇読解法として, 識別性と頑健性の両方が期待できる。
論文 参考訳(メタデータ) (2020-03-13T18:47:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。