論文の概要: Recovering Performance in Speech Emotion Recognition from Discrete Tokens via Multi-Layer Fusion and Paralinguistic Feature Integration
- arxiv url: http://arxiv.org/abs/2601.17085v1
- Date: Fri, 23 Jan 2026 07:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.214946
- Title: Recovering Performance in Speech Emotion Recognition from Discrete Tokens via Multi-Layer Fusion and Paralinguistic Feature Integration
- Title(参考訳): 多層融合とパラ言語的特徴統合による離散トークンからの音声感情認識の性能回復
- Authors: Esther Sun, Abinay Reddy Naini, Carlos Busso,
- Abstract要約: 本稿では,音声感情認識(SER)のための離散トークンの包括的検討を行う。
異なる層構成とk平均量子化粒度での性能劣化を定量化する。
本稿では,(1)異なるレイヤから補完情報を取得するための注意ベースの多層融合,(2)パラ言語的手がかりを明示的に再導入するためのopenSMILE機能の統合,の2つの主要な戦略を提案する。
- 参考スコア(独自算出の注目度): 28.470758433815423
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Discrete speech tokens offer significant advantages for storage and language model integration, but their application in speech emotion recognition (SER) is limited by paralinguistic information loss during quantization. This paper presents a comprehensive investigation of discrete tokens for SER. Using a fine-tuned WavLM-Large model, we systematically quantify performance degradation across different layer configurations and k-means quantization granularities. To recover the information loss, we propose two key strategies: (1) attention-based multi-layer fusion to recapture complementary information from different layers, and (2) integration of openSMILE features to explicitly reintroduce paralinguistic cues. We also compare mainstream neural codec tokenizers (SpeechTokenizer, DAC, EnCodec) and analyze their behaviors when fused with acoustic features. Our findings demonstrate that through multi-layer fusion and acoustic feature integration, discrete tokens can close the performance gap with continuous representations in SER tasks.
- Abstract(参考訳): 離散音声トークンは、記憶と言語モデル統合に大きな利点をもたらすが、その音声感情認識(SER)への応用は、量子化時のパラ言語情報損失によって制限される。
本稿では,SERにおける離散トークンの包括的検討について述べる。
微調整WavLM-Largeモデルを用いて,異なる層構成とk平均量子化粒度で性能劣化を系統的に定量化する。
情報損失を回復するためには,(1)異なるレイヤから補完情報を抽出するための注意ベースの多層融合,(2)パラ言語的手がかりを明示的に再導入するためのopenSMILE機能の統合,の2つの主要な戦略を提案する。
また、メインストリームのニューラルコーデックトークン(SpeechTokenizer、DAC、EnCodec)を比較し、音響的特徴と融合した場合の動作を分析する。
本研究は,多層融合と音響的特徴統合により,離散トークンがSERタスクの連続表現と性能ギャップを埋めることを示した。
関連論文リスト
- Feature Hallucination for Self-supervised Action Recognition [37.20267786858476]
本稿では,RGBビデオフレームからの動作概念と補助的特徴を共同で予測することにより,認識精度を向上させるディープトランスレーショナルアクション認識フレームワークを提案する。
本研究では,Kineetics-400,Kineetics-600,Something V2など,複数のベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-06-25T11:50:23Z) - Rethinking Multimodal Sentiment Analysis: A High-Accuracy, Simplified Fusion Architecture [2.3272964989267626]
本稿では,発話レベルの感情分類に適した,軽量かつ効果的な融合型ディープラーニングモデルを提案する。
我々のアプローチは、注意深く機能エンジニアリングとモジュール設計を行うことで、より単純な融合戦略がより複雑なモデルより優れているか、あるいは一致しているかを示します。
論文 参考訳(メタデータ) (2025-05-05T02:31:11Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Optimizing Speech Multi-View Feature Fusion through Conditional Computation [51.23624575321469]
自己教師付き学習(SSL)機能は、軽量で多目的な多視点音声表現を提供する。
SSLは、FBanksのような従来のスペクトル機能とアップデートの方向で競合する。
本稿では,条件計算に基づく新しい一般化された特徴融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-14T12:12:06Z) - A Comparative Study of Discrete Speech Tokens for Semantic-Related Tasks with Large Language Models [46.298114175792584]
様々な意味的タスクにおける離散的特徴と連続的特徴の公平かつ徹底的な比較を示す。
連続的な特徴は一般に離散トークンよりも優れており、特に微粒な意味理解を必要とするタスクにおいて顕著である。
論文 参考訳(メタデータ) (2024-11-13T16:20:20Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Speech Emotion Recognition with Co-Attention based Multi-level Acoustic
Information [21.527784717450885]
音声感情認識は、人間の主観的感情を音声情報のみから理解することを目的としている。
マルチレベル音響情報を用いたエンドツーエンドの音声感情認識システムを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:17:28Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。