論文の概要: S+PAGE: A Speaker and Position-Aware Graph Neural Network Model for
Emotion Recognition in Conversation
- arxiv url: http://arxiv.org/abs/2112.12389v1
- Date: Thu, 23 Dec 2021 07:25:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-24 16:32:13.862391
- Title: S+PAGE: A Speaker and Position-Aware Graph Neural Network Model for
Emotion Recognition in Conversation
- Title(参考訳): s+page:会話における感情認識のための話者・位置認識グラフニューラルネットワークモデル
- Authors: Chen Liang, Chong Yang, Jing Xu, Juyang Huang, Yongliang Wang, Yang
Dong
- Abstract要約: 近年,会話における感情認識 (ERC) が注目されている。
既存のERCメソッドは、主に自己と話者間のコンテキストを個別にモデル化し、それら間の相互作用が十分でないために大きな問題となる。
本稿では,トランスフォーマーとリレーショナルグラフネットワークの両方の利点を組み合わせる3つの段階を含む,ERC(S+)のための新しい話者・位置対応グラフニューラルネットワークモデルを提案する。
- 参考スコア(独自算出の注目度): 12.379143886125926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotion recognition in conversation (ERC) has attracted much attention in
recent years for its necessity in widespread applications. Existing ERC methods
mostly model the self and inter-speaker context separately, posing a major
issue for lacking enough interaction between them. In this paper, we propose a
novel Speaker and Position-Aware Graph neural network model for ERC (S+PAGE),
which contains three stages to combine the benefits of both Transformer and
relational graph convolution network (R-GCN) for better contextual modeling.
Firstly, a two-stream conversational Transformer is presented to extract the
coarse self and inter-speaker contextual features for each utterance. Then, a
speaker and position-aware conversation graph is constructed, and we propose an
enhanced R-GCN model, called PAG, to refine the coarse features guided by a
relative positional encoding. Finally, both of the features from the former two
stages are input into a conditional random field layer to model the emotion
transfer.
- Abstract(参考訳): 会話における感情認識(erc)は、近年、広く応用される必要性から注目を集めている。
既存のERCメソッドは、主に自己と話者間のコンテキストを個別にモデル化し、それら間の相互作用が十分でないために大きな問題となる。
本稿では,トランスフォーマーとリレーショナルグラフ畳み込みネットワーク(r-gcn)の2つの利点を組み合わせた3つの段階を含む,erc(s+page)のための話者・位置認識型グラフニューラルネットワークモデルを提案する。
まず、2ストリームの会話変換器を提示し、発話毎に粗い自己および話者間コンテキスト特徴を抽出する。
次に,話者と位置認識対話グラフを構築し,相対的な位置符号化によって導かれる粗い特徴を洗練するために,pagと呼ばれる拡張r-gcnモデルを提案する。
最後に、前2段階の2つの特徴を条件付きランダムフィールド層に入力し、感情伝達をモデル化する。
関連論文リスト
- Predicting Evoked Emotions in Conversations [6.0866477571088895]
次回(n+1)における会話における感情予測(PEC)の新たな問題について紹介する。
我々は,対話における誘発感情に固有の3次元をモデル化することにより,この問題に体系的にアプローチする。
我々は, PEC問題に対処するための様々なモデルについて, 包括的実証評価を行った。
論文 参考訳(メタデータ) (2023-12-31T03:30:42Z) - LineConGraphs: Line Conversation Graphs for Effective Emotion
Recognition using Graph Neural Networks [10.446376560905863]
本稿では,会話における感情認識のためのライン会話グラフ畳み込みネットワーク(LineConGCN)とグラフ注意モデル(LineConGAT)を提案する。
これらのモデルは話者に依存しず、会話のためのグラフ構築戦略を使って構築される -- ライン会話グラフ(LineConGraphs)
我々は,IEMOCAPとMELDという2つのベンチマークデータセット上で提案したモデルの性能を評価し,F1スコア64.58%,76.50%で,LineConGATモデルが最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-12-04T19:36:58Z) - HCAM -- Hierarchical Cross Attention Model for Multi-modal Emotion
Recognition [41.837538440839815]
マルチモーダル感情認識のための階層的クロスアテンションモデル(HCAM)を提案する。
モデルへの入力は、学習可能なwav2vecアプローチによって処理される2つのモーダルデータと、変換器(BERT)モデルからの双方向エンコーダ表現を用いて表現されるテキストデータからなる。
文脈知識と2つのモードにまたがる情報を組み込むため、音声とテキストの埋め込みはコアテンション層を用いて結合される。
論文 参考訳(メタデータ) (2023-04-14T03:25:00Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - An Adaptive Learning based Generative Adversarial Network for One-To-One
Voice Conversion [9.703390665821463]
本稿では,効率の良い1対1話者VCのための適応学習型GANモデルであるALGAN-VCを提案する。
このモデルは、Voice Conversion Challenge (VCC) 2016、2018、2020データセット、および自己準備のスピーチデータセットでテストされています。
生成音声サンプルの主観的および客観的評価は,提案モデルが音声変換タスクをエレガントに実行していることを示した。
論文 参考訳(メタデータ) (2021-04-25T13:44:32Z) - A Hierarchical Transformer with Speaker Modeling for Emotion Recognition
in Conversation [12.065178204539693]
Emotion Recognition in Conversation(ERC)は、パーソナライズされたインタラクティブな感情認識タスクです。
現在の方法は、各話者間の関係を構築することによって話者の相互作用をモデル化する。
複雑なモデリングをバイナリバージョン – スピーカー内依存関係とスピーカー間依存関係 – に簡略化します。
論文 参考訳(メタデータ) (2020-12-29T14:47:35Z) - Topic-Aware Multi-turn Dialogue Modeling [91.52820664879432]
本稿では,トピック認識発話を教師なしでセグメント化して抽出する,多元対話モデリングのための新しいソリューションを提案する。
トピック・アウェア・モデリングは、新たに提案されたトピック・アウェア・セグメンテーション・アルゴリズムとトピック・アウェア・デュアル・アテンション・マッチング(TADAM)ネットワークによって実現されている。
論文 参考訳(メタデータ) (2020-09-26T08:43:06Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。