論文の概要: Visually Guided Self Supervised Learning of Speech Representations
- arxiv url: http://arxiv.org/abs/2001.04316v2
- Date: Thu, 20 Feb 2020 12:51:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 00:09:03.381914
- Title: Visually Guided Self Supervised Learning of Speech Representations
- Title(参考訳): 視覚誘導型自己教師型音声表現学習
- Authors: Abhinav Shukla, Konstantinos Vougioukas, Pingchuan Ma, Stavros
Petridis, Maja Pantic
- Abstract要約: 音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
- 参考スコア(独自算出の注目度): 62.23736312957182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self supervised representation learning has recently attracted a lot of
research interest for both the audio and visual modalities. However, most works
typically focus on a particular modality or feature alone and there has been
very limited work that studies the interaction between the two modalities for
learning self supervised representations. We propose a framework for learning
audio representations guided by the visual modality in the context of
audiovisual speech. We employ a generative audio-to-video training scheme in
which we animate a still image corresponding to a given audio clip and optimize
the generated video to be as close as possible to the real video of the speech
segment. Through this process, the audio encoder network learns useful speech
representations that we evaluate on emotion recognition and speech recognition.
We achieve state of the art results for emotion recognition and competitive
results for speech recognition. This demonstrates the potential of visual
supervision for learning audio representations as a novel way for
self-supervised learning which has not been explored in the past. The proposed
unsupervised audio features can leverage a virtually unlimited amount of
training data of unlabelled audiovisual speech and have a large number of
potentially promising applications.
- Abstract(参考訳): 自己教師付き表現学習は近年,音声と視覚の両方に多くの研究関心を集めている。
しかし、ほとんどの作品は特定のモダリティや特徴だけに焦点を当てており、自己教師付き表現を学ぶための2つのモダリティ間の相互作用を研究する非常に限られた研究がある。
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
我々は,与えられた音声クリップに対応する静止画像をアニメーション化し,生成された映像を音声セグメントの実際の映像に可能な限り近いように最適化する,生成音声から映像への訓練方式を採用する。
このプロセスを通じて、音声エンコーダネットワークは、感情認識と音声認識に基づいて評価する有用な音声表現を学習する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
これは、これまで研究されていない自己教師あり学習の新しい方法として、音声表現を学ぶための視覚的な監督の可能性を示している。
提案した教師なし音声機能は、ほとんど無限の量のオーディオヴィジュアル音声の訓練データを活用することができ、潜在的に有望なアプリケーションが多数存在する。
関連論文リスト
- Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation Learning [3.6204417068568424]
映画やテレビ番組と呼ばれるバージョンを使って、クロスモーダルなコントラスト学習を強化しています。
提案手法では, 音声のみが異なる音声トラックの表現を学習する。
論文 参考訳(メタデータ) (2023-04-12T04:17:45Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Audiovisual Masked Autoencoders [93.22646144125457]
我々は,音声視覚下層分類タスクにおいて,大幅な改善が達成できることを示す。
また,Epic Kitchens における最先端オーディオ映像の表現の伝達性について述べる。
論文 参考訳(メタデータ) (2022-12-09T17:34:53Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Does Visual Self-Supervision Improve Learning of Speech Representations
for Emotion Recognition? [63.564385139097624]
本研究は,音声表現の学習を指導するために,顔再構成による視覚的自己監督について検討する。
提案した視覚的・音声的自己監督のマルチタスクの組み合わせは,よりリッチな特徴を学習する上で有益であることを示す。
学習した音声表現を、離散的感情認識、連続的感情認識、自動音声認識のために評価する。
論文 参考訳(メタデータ) (2020-05-04T11:33:40Z) - On the Role of Visual Cues in Audiovisual Speech Enhancement [21.108094726214784]
ニューラルオーディオ視覚音声強調モデルでは、視覚的手がかりを用いてターゲット音声信号の品質を向上させる方法を示す。
この発見の副産物の1つは、学習された視覚埋め込みが他の視覚音声アプリケーションの機能として利用できることである。
論文 参考訳(メタデータ) (2020-04-25T01:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。