論文の概要: SPEAKER VGG CCT: Cross-corpus Speech Emotion Recognition with Speaker
Embedding and Vision Transformers
- arxiv url: http://arxiv.org/abs/2211.02366v1
- Date: Fri, 4 Nov 2022 10:49:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 17:37:26.220893
- Title: SPEAKER VGG CCT: Cross-corpus Speech Emotion Recognition with Speaker
Embedding and Vision Transformers
- Title(参考訳): SPEAKER VGG CCT:話者埋め込みと視覚変換器を用いたクロスコーパス音声認識
- Authors: A. Arezzo, S. Berretti
- Abstract要約: 本稿では,音声認識のための新しい学習方法を提案する。
これは、CCT(Compact Convolutional Transformers)とスピーカー埋め込みの組み合わせに基づいている。
クロスコーパス設定でいくつかのベンチマークで実験が行われた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, Speech Emotion Recognition (SER) has been investigated
mainly transforming the speech signal into spectrograms that are then
classified using Convolutional Neural Networks pretrained on generic images and
fine tuned with spectrograms. In this paper, we start from the general idea
above and develop a new learning solution for SER, which is based on Compact
Convolutional Transformers (CCTs) combined with a speaker embedding. With CCTs,
the learning power of Vision Transformers (ViT) is combined with a diminished
need for large volume of data as made possible by the convolution. This is
important in SER, where large corpora of data are usually not available. The
speaker embedding allows the network to extract an identity representation of
the speaker, which is then integrated by means of a self-attention mechanism
with the features that the CCT extracts from the spectrogram. Overall, the
solution is capable of operating in real-time showing promising results in a
cross-corpus scenario, where training and test datasets are kept separate.
Experiments have been performed on several benchmarks in a cross-corpus setting
as rarely used in the literature, with results that are comparable or superior
to those obtained with state-of-the-art network architectures. Our code is
available at https://github.com/JabuMlDev/Speaker-VGG-CCT.
- Abstract(参考訳): 近年,音声認識 (SER) は, 音声信号からスペクトルへと変換し, 一般的な画像に事前学習された畳み込みニューラルネットワークを用いて分類し, スペクトルを微調整した。
本稿では、上述の一般的な考え方から始め、話者埋め込みと組み合わせたコンパクト畳み込み変換器(CCT)に基づくSERの新しい学習ソリューションを開発する。
CCTでは、ViT(Vision Transformers)の学習能力と、畳み込みによってできる限り大量のデータの必要性の低下が組み合わされる。
これは、通常大量のデータが利用できないSERにおいて重要である。
話者埋め込みにより、ネットワークは話者のアイデンティティ表現を抽出し、cctが分光図から抽出した特徴と自己照査機構によって統合される。
全体として、このソリューションは、トレーニングとテストデータセットを分離したクロスコーポレートシナリオで、有望な結果をリアルタイムで示すことができる。
文献ではほとんど使われていないクロスコーパス環境で、いくつかのベンチマークで実験が行われてきたが、その結果は最先端のネットワークアーキテクチャで得られたものと同等か優れている。
私たちのコードはhttps://github.com/JabuMlDev/Speaker-VGG-CCTで公開されています。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Zorro: the masked multimodal transformer [68.99684436029884]
ゾロ(Zorro)は、トランスフォーマー内の各モードからの入力をどのようにルーティングするかを制御するためにマスクを使用するテクニックである。
対照的な事前学習により、Zorroはマルチモーダルタスクの最も関連性の高いベンチマークで最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-01-23T17:51:39Z) - BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping [19.071463356974387]
この研究は、ブートストラップによる自己教師型学習に基づく既存の手法を拡張し、様々なエンコーダアーキテクチャを提案し、異なる事前学習データセットを使用することの効果を探る。
本稿では,手工芸とデータ駆動型学習音声機能を組み合わせたハイブリッド音声表現を提案する。
提案したすべての表現は、聴覚シーン分類とタイムスタンプ検出タスクのためのHEAR NeurIPS 2021チャレンジで評価された。
論文 参考訳(メタデータ) (2022-06-24T02:26:40Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - Synthesized Speech Detection Using Convolutional Transformer-Based
Spectrogram Analysis [16.93803259128475]
合成音声は、報告された音声信号を作成し、その信号の内容を話さない人に帰属するなど、悪質な目的に使用できる。
本稿では,合成音声検出のためのコンパクト畳み込み変換器を用いて,スペクトル形音声信号の解析を行う。
論文 参考訳(メタデータ) (2022-05-03T22:05:35Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - A Framework for Generative and Contrastive Learning of Audio
Representations [2.8935588665357077]
本研究では,音声表現のためのコントラスト学習フレームワークを提案する。
また、音声信号の潜在空間を学習するために、アートトランスフォーマーに基づくアーキテクチャの状態に基づく生成モデルについても検討する。
本システムは,ニューラルネットワークモデルをトレーニングするために,地上の真理ラベルにアクセス可能な完全教師付き手法と比較して,かなりの性能を実現している。
論文 参考訳(メタデータ) (2020-10-22T05:52:32Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。