論文の概要: Geometric Second-Order Feature Correlation Learning for Self-Supervised Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2606.06550v1
- Date: Thu, 04 Jun 2026 08:18:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.364826
- Title: Geometric Second-Order Feature Correlation Learning for Self-Supervised Speech Emotion Recognition
- Title(参考訳): 自己教師付き音声感情認識のための幾何学的2次特徴相関学習
- Authors: Shuanglin Li, Ruxiao Qian, Siyang Song,
- Abstract要約: 自己教師付き学習(SSL)は、感情認識のための強力で文脈に富んだ表現をもたらす。
しかし、これらの表現を全体論的な記述子に集約することは、依然としてボトルネックである。
本稿では,この問題に対処する新しい第2次相関層を提案する。
- 参考スコア(独自算出の注目度): 20.241229752223337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) yields powerful, context-rich representations for speech emotion recognition (SER), yet aggregating these representations into holistic descriptors remains a bottleneck. Conventional first-order aggregation implicitly assumes feature independence, which overlooks the latent Riemannian geometry and discards higher-order relationships essential to the representational power of the backbone. To address this problem, this paper proposes a novel Second-Order Correlation (SOC) layer. Instead of treating features in isolation, SOC models feature correlations as covariance descriptors to capture synergistic co-occurrence patterns, which serve as discriminative signatures for robust emotion recognition. By mapping these descriptors from the Riemannian manifold to a Euclidean tangent space through Log-Euclidean mapping (LEM), the proposed method preserves geometric integrity while enabling direct linear discriminative learning. Extensive experiments on the ESD and RAVDESS datasets demonstrate that SOC recovers discriminative information lost in first-order pooling and effectively aggregates high-dimensional SSL features.
- Abstract(参考訳): 自己教師付き学習(SSL)は、音声感情認識(SER)のために強力で文脈に富んだ表現をもたらすが、これらの表現を全体的記述子に集約することはボトルネックのままである。
従来の一階のアグリゲーションは機能独立を暗黙的に仮定し、これは潜在リーマン幾何学を見落とし、バックボーンの表現力に不可欠な高階の関係を捨てる。
そこで本研究では,新しい第2次相関層(SOC)を提案する。
SOCモデルは、特徴を分離して扱う代わりに、相関関係を共分散記述子として特徴付け、堅牢な感情認識のための識別的シグネチャとして機能する相乗的共起パターンをキャプチャする。
リーマン多様体からのこれらの記述子をログユークリッド写像 (LEM) を通してユークリッド接空間にマッピングすることにより、直線型判別学習を可能とし、幾何学的整合性を維持する。
ESDとRAVDESSデータセットの大規模な実験により、SOCは1次プールで失われた識別情報を回復し、高次元SSL機能を効果的に集約することを示した。
関連論文リスト
- Hyperbolic Enhanced Representation Learning for Incomplete Multi-view Clustering [57.38215918201251]
本稿では,不完全なマルチビュークラスタリングのためのハイパーボリック拡張表現学習フレームワークであるHERLを提案する。
ポアンカレボール内で操作すると、HERLは表現学習を強化するために構造を意識した潜在空間を構築する。
HERLは最先端のアプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2026-04-18T10:50:46Z) - Weight-Informed Self-Explaining Clustering for Mixed-Type Tabular Data [63.62853416081748]
WISEは表現、特徴重み付け、クラスタリング、解釈を統一するフレームワークである。
クラスタリングを駆動する同じプリミティブに根ざした、忠実で人間解釈可能な説明を生成する。
論文 参考訳(メタデータ) (2026-04-07T13:18:31Z) - Improving LLM Reasoning with Homophily-aware Structural and Semantic Text-Attributed Graph Compression [55.51959317490934]
大規模言語モデル(LLM)は、テキスト分散グラフ(TAG)理解において有望な能力を示している。
グラフは本来、構造情報や意味情報を豊富に含むものであり、それらの有効利用はLLMの推論性能の潜在的な利益を解放する可能性があると論じる。
グラフホモフィリーの活用を目的としたフレームワーク LLMs (HS2C) のホモフィリー対応構造とセマンティック圧縮を提案する。
論文 参考訳(メタデータ) (2026-01-13T03:35:18Z) - Topic Identification in LLM Input-Output Pairs through the Lens of Information Bottleneck [0.0]
幾何学的クラスタリングのための決定論的情報ボトルネック(DIB)に基づく基本的トピック識別手法を開発した。
我々の重要な貢献は、DIB法を計算効率の良い上界を持つ難解なKL発散項に代えて、高次元データのための実用的なアルゴリズムに変換することである。
論文 参考訳(メタデータ) (2025-08-26T20:00:51Z) - Predict, Cluster, Refine: A Joint Embedding Predictive Self-Supervised Framework for Graph Representation Learning [0.0]
グラフ表現学習は、ノード分類やリンク予測といったタスクの基盤として登場した。
現在の自己教師付き学習(SSL)手法は、計算の非効率性、対照的な目的への依存、表現の崩壊といった課題に直面している。
本稿では,意味情報と構造情報を保存しながら,対照的な目的と負のサンプリングを排除したグラフSSLのための新しい結合埋め込み予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-02T07:42:45Z) - HiURE: Hierarchical Exemplar Contrastive Learning for Unsupervised Relation Extraction [63.64877263289319]
非教師なし関係抽出は、関係範囲や分布に関する事前情報のない自然言語文からエンティティ間の関係を抽出することを目的としている。
本稿では,階層間注目を用いた階層的特徴空間から階層的信号を導出する機能を持つ,HiUREという新しいコントラスト学習フレームワークを提案する。
2つの公開データセットの実験結果は、最先端モデルと比較した場合の教師なし関係抽出におけるHiUREの有効性とロバスト性を示す。
論文 参考訳(メタデータ) (2022-05-04T17:56:48Z) - Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty
Estimation for Facial Expression Recognition [59.52434325897716]
DMUE(DMUE)という,アノテーションのあいまいさを2つの視点から解決するソリューションを提案する。
前者に対しては,ラベル空間における潜伏分布をよりよく記述するために,補助的マルチブランチ学習フレームワークを導入する。
後者の場合、インスタンス間の意味的特徴のペアワイズ関係を完全に活用して、インスタンス空間のあいまいさの程度を推定する。
論文 参考訳(メタデータ) (2021-04-01T03:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。