論文の概要: Speech Swin-Transformer: Exploring a Hierarchical Transformer with
Shifted Windows for Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2401.10536v1
- Date: Fri, 19 Jan 2024 07:30:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 16:30:08.869920
- Title: Speech Swin-Transformer: Exploring a Hierarchical Transformer with
Shifted Windows for Speech Emotion Recognition
- Title(参考訳): 音声スウィン変換器:音声感情認識のためのシフトウィンドウ付き階層変換器の探索
- Authors: Yong Wang, Cheng Lu, Hailun Lian, Yan Zhao, Bj\"orn Schuller, Yuan
Zong, Wenming Zheng
- Abstract要約: Swin-Transformerは、Transformerに基づいた階層的特徴表現を活用することで、コンピュータビジョンにおいて顕著な成功を収めた。
音声感情認識のためのマルチスケール感情特徴を集約する階層型音声変換器を提案する。
実験の結果,提案した音声スウィン変換器は最先端手法よりも優れていた。
- 参考スコア(独自算出の注目度): 18.761845671904048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Swin-Transformer has demonstrated remarkable success in computer vision by
leveraging its hierarchical feature representation based on Transformer. In
speech signals, emotional information is distributed across different scales of
speech features, e.\,g., word, phrase, and utterance. Drawing above
inspiration, this paper presents a hierarchical speech Transformer with shifted
windows to aggregate multi-scale emotion features for speech emotion
recognition (SER), called Speech Swin-Transformer. Specifically, we first
divide the speech spectrogram into segment-level patches in the time domain,
composed of multiple frame patches. These segment-level patches are then
encoded using a stack of Swin blocks, in which a local window Transformer is
utilized to explore local inter-frame emotional information across frame
patches of each segment patch. After that, we also design a shifted window
Transformer to compensate for patch correlations near the boundaries of segment
patches. Finally, we employ a patch merging operation to aggregate
segment-level emotional features for hierarchical speech representation by
expanding the receptive field of Transformer from frame-level to segment-level.
Experimental results demonstrate that our proposed Speech Swin-Transformer
outperforms the state-of-the-art methods.
- Abstract(参考訳): Swin-Transformerは、Transformerに基づいた階層的特徴表現を活用することで、コンピュータビジョンにおいて顕著な成功を収めた。
音声信号では、感情情報は様々な種類の音声特徴に分散される。
g である。
言葉、フレーズ、発話。
上述のインスピレーションにより,SER(Speech Swin-Transformer)と呼ばれる音声感情認識のためのマルチスケール感情特徴を集約する階層型音声変換器を提案する。
具体的には、まず音声スペクトログラムを、複数のフレームパッチからなる時間領域のセグメントレベルパッチに分割する。
これらのセグメントレベルのパッチはスウィングブロックのスタックを使ってエンコードされ、各セグメントパッチのフレームパッチにまたがるローカルなフレーム間感情情報を探索するためにローカルウィンドウトランスフォーマーが使用される。
その後、セグメントパッチの境界付近のパッチ相関を補償するためにシフトウィンドウトランスを設計した。
最後に,フレームレベルからセグメントレベルへ変換器の受容場を拡大することにより,階層的音声表現のためのセグメントレベルの感情特徴を集約するパッチマージ操作を用いる。
実験の結果,提案した音声スウィン変換器は最先端手法よりも優れていた。
関連論文リスト
- Machine Learning for Brain Disorders: Transformers and Visual
Transformers [4.186575888568896]
トランスフォーマーは当初、自然言語処理(NLP)タスク用に導入されたが、コンピュータビジョンを含む多くのディープラーニング分野に急速に採用された。
本稿では、注意機構(Section 1)を導入し、次にビジョン変換器を含む基本変換器ブロックを紹介する。
最後に,画像分類以外のタスク,例えば検出,セグメンテーション,生成,ラベルなしのトレーニングに適用されるVisual Transformerを紹介する。
論文 参考訳(メタデータ) (2023-03-21T17:57:33Z) - Neighborhood Contrastive Transformer for Change Captioning [80.10836469177185]
本研究では,異なる環境下での様々な変化に対するモデルの知覚能力を向上させるために,近傍のコントラスト変換器を提案する。
提案手法は,変化シナリオの異なる3つの公開データセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-06T14:39:54Z) - SpeechFormer++: A Hierarchical Efficient Framework for Paralinguistic
Speech Processing [17.128885611538486]
パラ言語音声処理は、感情分析や神経認知障害分析などの多くの問題に対処する上で重要である。
音声の特徴を考察し、パラ言語音声処理のための一般的な構造ベースフレームワークであるSpeechFormer++を提案する。
SpeechFormer++は、音声感情認識(IEMOCAP & MELD)、うつ病分類(DAIC-WOZ)、アルツハイマー病検出(Pitt)タスクに基づいて評価される。
論文 参考訳(メタデータ) (2023-02-27T11:48:54Z) - LAVT: Language-Aware Vision Transformer for Referring Image Segmentation [80.54244087314025]
視覚トランスフォーマーエンコーダネットワークにおいて,言語的特徴と視覚的特徴を早期に融合することにより,より優れたモーダルアライメントを実現することができることを示す。
提案手法は,RefCOCO,RefCO+,G-Refの従来の最先端手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-12-04T04:53:35Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - MSG-Transformer: Exchanging Local Spatial Information by Manipulating
Messenger Tokens [129.10351459066501]
メッセンジャー(MSG)として機能する各領域に特化トークンを提案する。
これらのMSGトークンを操作することで、領域間で柔軟に視覚情報を交換することができる。
次に、MSGトークンをMSG-Transformerというマルチスケールアーキテクチャに統合する。
論文 参考訳(メタデータ) (2021-05-31T17:16:42Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - COOT: Cooperative Hierarchical Transformer for Video-Text Representation
Learning [0.0]
多くの実世界のビデオテキストタスクは、フレームや単語、クリップや文、ビデオや段落など、それぞれ異なる意味を持つ粒度のレベルを含む。
本稿では,この階層情報を活用するための協調階層変換器(COOT)を提案し,異なるレベルの粒度と異なるモダリティ間の相互作用をモデル化する。
論文 参考訳(メタデータ) (2020-11-01T18:54:09Z) - Hierarchical Transformer Network for Utterance-level Emotion Recognition [0.0]
発話レベルの感情認識(ULER)における課題に対処する。
従来のテキスト分類問題とは異なり、このタスクは限られた数のデータセットでサポートされている。
我々は、低レベルトランスとして、変換器(BERT)からの双方向エンコーダ表現を事前訓練した言語モデルを用いる。
さらに、初めてモデルに話者埋め込みを追加し、モデルが話者間の相互作用を捉えられるようにします。
論文 参考訳(メタデータ) (2020-02-18T13:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。