論文の概要: A Layer-Anchoring Strategy for Enhancing Cross-Lingual Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2407.04966v1
- Date: Sat, 6 Jul 2024 05:56:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 21:37:47.115436
- Title: A Layer-Anchoring Strategy for Enhancing Cross-Lingual Speech Emotion Recognition
- Title(参考訳): 言語間音声認識の階層化戦略
- Authors: Shreya G. Upadhyay, Carlos Busso, Chi-Chun Lee,
- Abstract要約: 言語間音声感情認識(SER)は、幅広い日常的応用において重要である。
本稿では,SERタスクにおける感情伝達を容易にするレイヤアンカリング機構を提案する。
本手法は2つの異なる言語感情コーパスを用いて評価する。
- 参考スコア(独自算出の注目度): 41.05066959632938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-lingual speech emotion recognition (SER) is important for a wide range of everyday applications. While recent SER research relies heavily on large pretrained models for emotion training, existing studies often concentrate solely on the final transformer layer of these models. However, given the task-specific nature and hierarchical architecture of these models, each transformer layer encapsulates different levels of information. Leveraging this hierarchical structure, our study focuses on the information embedded across different layers. Through an examination of layer feature similarity across different languages, we propose a novel strategy called a layer-anchoring mechanism to facilitate emotion transfer in cross-lingual SER tasks. Our approach is evaluated using two distinct language affective corpora (MSP-Podcast and BIIC-Podcast), achieving a best UAR performance of 60.21% on the BIIC-podcast corpus. The analysis uncovers interesting insights into the behavior of popular pretrained models.
- Abstract(参考訳): 言語間音声感情認識(SER)は、幅広い日常的応用において重要である。
最近のSER研究は、感情訓練のための大規模な事前訓練モデルに大きく依存しているが、既存の研究はしばしばこれらのモデルの最終的なトランスフォーマー層にのみ依存している。
しかし、これらのモデルのタスク固有の性質と階層構造を考えると、各トランスフォーマー層は異なるレベルの情報をカプセル化する。
この階層構造を活用して、我々は異なる層に埋め込まれた情報に焦点を当てる。
異なる言語にまたがる特徴的類似性の検証を通じて,言語間SERタスクにおける感情伝達を促進するレイヤ・アチョリング機構を提案する。
本手法は2つの異なる言語感情コーパス(MSP-PodcastとBIIC-Podcast)を用いて評価し,BIIC-podcastコーパスで60.21%の最高のUAR性能を実現する。
この分析は、人気のある事前訓練されたモデルの振る舞いに関する興味深い洞察を明らかにする。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - BiosERC: Integrating Biography Speakers Supported by LLMs for ERC Tasks [2.9873893715462176]
本研究は,会話における話者特性を調査するBiosERCという新しいフレームワークを紹介する。
本研究では,Large Language Models (LLMs) を用いて,会話中の話者の「生体情報」を抽出する。
提案手法は,3つの有名なベンチマークデータセットを用いて,最先端のSOTA(State-of-the-art)結果を得た。
論文 参考訳(メタデータ) (2024-07-05T06:25:34Z) - Probing the Information Encoded in Neural-based Acoustic Models of
Automatic Speech Recognition Systems [7.207019635697126]
本稿では,自動音声認識音響モデル(AM)における情報の位置と位置を決定することを目的とする。
話者検証,音響環境分類,性別分類,テンポ歪検出システム,音声感情・感情識別について実験を行った。
分析の結果、ニューラルベースAMは驚くほど音素認識と無関係に思える異種情報を持っていることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:43:53Z) - A Multi-Task, Multi-Modal Approach for Predicting Categorical and
Dimensional Emotions [0.0]
分類的・次元的な感情を予測するマルチタスク・マルチモーダルシステムを提案する。
その結果,2種類の感情の相互規則化の重要性が強調された。
論文 参考訳(メタデータ) (2023-12-31T16:48:03Z) - HCAM -- Hierarchical Cross Attention Model for Multi-modal Emotion
Recognition [41.837538440839815]
マルチモーダル感情認識のための階層的クロスアテンションモデル(HCAM)を提案する。
モデルへの入力は、学習可能なwav2vecアプローチによって処理される2つのモーダルデータと、変換器(BERT)モデルからの双方向エンコーダ表現を用いて表現されるテキストデータからなる。
文脈知識と2つのモードにまたがる情報を組み込むため、音声とテキストの埋め込みはコアテンション層を用いて結合される。
論文 参考訳(メタデータ) (2023-04-14T03:25:00Z) - A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文 参考訳(メタデータ) (2023-03-14T16:08:45Z) - Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular
Vision-Language Pre-training [120.91411454661741]
視覚言語認識と生成を容易にするための訓練済みユニバーサル・デコーダネットワーク(Uni-EDEN)を提案する。
Uni-EDENは2ストリームトランスフォーマーベースの構造で、オブジェクトと文エンコーダの3つのモジュールで構成され、各モダリティの表現を別々に学習する。
論文 参考訳(メタデータ) (2022-01-11T16:15:07Z) - Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework
of Vision-and-Language BERTs [57.74359320513427]
ビジョンと言語BERTを事前訓練して、これらの2つの重要なAI領域の交差点での課題に取り組む方法が提案されている。
これら2つのカテゴリの違いについて検討し、単一の理論的枠組みの下でそれらをどのように統合できるかを示す。
5つのV&L BERT間の経験的差異を明らかにするための制御実験を行った。
論文 参考訳(メタデータ) (2020-11-30T18:55:24Z) - Symbiotic Adversarial Learning for Attribute-based Person Search [86.7506832053208]
本稿では,共生学習の枠組みとして,共生学習の基盤に2つのGANを配置する。
具体的には、2種類の生成的敵ネットワークがトレーニングプロセスを通して協調的に学習する。
論文 参考訳(メタデータ) (2020-07-19T07:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。