論文の概要: A Hierarchical Transformer with Speaker Modeling for Emotion Recognition
in Conversation
- arxiv url: http://arxiv.org/abs/2012.14781v1
- Date: Tue, 29 Dec 2020 14:47:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 20:38:08.302339
- Title: A Hierarchical Transformer with Speaker Modeling for Emotion Recognition
in Conversation
- Title(参考訳): 話者モデルを用いた対話における感情認識のための階層変換器
- Authors: Jiangnan Li, Zheng Lin, Peng Fu, Qingyi Si, Weiping Wang
- Abstract要約: Emotion Recognition in Conversation(ERC)は、パーソナライズされたインタラクティブな感情認識タスクです。
現在の方法は、各話者間の関係を構築することによって話者の相互作用をモデル化する。
複雑なモデリングをバイナリバージョン – スピーカー内依存関係とスピーカー間依存関係 – に簡略化します。
- 参考スコア(独自算出の注目度): 12.065178204539693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotion Recognition in Conversation (ERC) is a more challenging task than
conventional text emotion recognition. It can be regarded as a personalized and
interactive emotion recognition task, which is supposed to consider not only
the semantic information of text but also the influences from speakers. The
current method models speakers' interactions by building a relation between
every two speakers. However, this fine-grained but complicated modeling is
computationally expensive, hard to extend, and can only consider local context.
To address this problem, we simplify the complicated modeling to a binary
version: Intra-Speaker and Inter-Speaker dependencies, without identifying
every unique speaker for the targeted speaker. To better achieve the simplified
interaction modeling of speakers in Transformer, which shows excellent ability
to settle long-distance dependency, we design three types of masks and
respectively utilize them in three independent Transformer blocks. The designed
masks respectively model the conventional context modeling, Intra-Speaker
dependency, and Inter-Speaker dependency. Furthermore, different speaker-aware
information extracted by Transformer blocks diversely contributes to the
prediction, and therefore we utilize the attention mechanism to automatically
weight them. Experiments on two ERC datasets indicate that our model is
efficacious to achieve better performance.
- Abstract(参考訳): 会話における感情認識(ERC)は、従来のテキスト感情認識よりも難しい課題である。
これは、テキストの意味情報だけでなく、話者の影響も考慮すべき、パーソナライズされた対話的な感情認識タスクと見なすことができる。
現在の方法は、各話者間の関係を構築することによって話者の相互作用をモデル化する。
しかし、このきめ細かい複雑なモデリングは計算コストが高く、拡張が難しく、局所的な文脈しか考慮できない。
この問題に対処するため、ターゲット話者に特有の話者を特定することなく、話者内および話者間依存関係という、複雑なモデリングをバイナリバージョンに単純化する。
長距離依存解消能力に優れたトランスフォーマにおける話者の簡易な対話モデルを実現するため,3種類のマスクを設計,それぞれ3つの独立したトランスフォーマブロックで活用した。
設計されたマスクはそれぞれ、従来のコンテキストモデリング、スピーカー内依存性、スピーカー間依存性をモデル化する。
さらに,トランスブロックによって抽出された異なる話者認識情報が予測に多種多様に寄与するので,注意機構を利用して自動重み付けを行う。
2つのERCデータセットの実験は、我々のモデルがより良いパフォーマンスを達成するのに有効であることを示している。
関連論文リスト
- Speaker Mask Transformer for Multi-talker Overlapped Speech Recognition [27.35304346509647]
話者ラベルを自己回帰変換器に基づく音声認識モデルに導入する。
次に、個々の話者の音声セグメントを検出するための新しい話者マスク分岐を提案する。
提案モデルでは,音声認識と話者ダイアリゼーションの両方を同時に行うことができる。
論文 参考訳(メタデータ) (2023-12-18T06:29:53Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Speaker-Guided Encoder-Decoder Framework for Emotion Recognition in
Conversation [23.93696773727978]
会話における感情認識は,会話中の発話の感情ラベルを予測することを目的としている。
動的に話者内および話者間依存関係を協調的に探索する新しい話者モデリング手法を設計する。
また、感情の復号化に話者情報を完全に活用する、ERCのための話者ガイドデコーダ(SGED)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-07T10:51:47Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios [143.47967241972995]
高品質音声合成のためのゼロショット適応型TSシステムであるAdaSpeech 4を開発した。
話者特性を体系的にモデル化し、新しい話者の一般化を改善する。
微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
論文 参考訳(メタデータ) (2022-04-01T13:47:44Z) - S+PAGE: A Speaker and Position-Aware Graph Neural Network Model for
Emotion Recognition in Conversation [12.379143886125926]
近年,会話における感情認識 (ERC) が注目されている。
既存のERCメソッドは、主に自己と話者間のコンテキストを個別にモデル化し、それら間の相互作用が十分でないために大きな問題となる。
本稿では,トランスフォーマーとリレーショナルグラフネットワークの両方の利点を組み合わせる3つの段階を含む,ERC(S+)のための新しい話者・位置対応グラフニューラルネットワークモデルを提案する。
論文 参考訳(メタデータ) (2021-12-23T07:25:02Z) - Multi-View Self-Attention Based Transformer for Speaker Recognition [33.21173007319178]
トランスフォーマーモデルは、話者認識などの音声処理タスクに広く利用されている。
本稿では,話者変換器のための多視点自己認識機構を提案する。
提案した話者トランスフォーマーネットワークは,最先端モデルと比較して優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-11T07:03:23Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。