論文の概要: Probing Speech Emotion Recognition Transformers for Linguistic Knowledge
- arxiv url: http://arxiv.org/abs/2204.00400v1
- Date: Fri, 1 Apr 2022 12:47:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 19:43:42.580630
- Title: Probing Speech Emotion Recognition Transformers for Linguistic Knowledge
- Title(参考訳): 言語知識のための音声感情認識トランスフォーマーの探索
- Authors: Andreas Triantafyllopoulos, Johannes Wagner, Hagen Wierstorf,
Maximilian Schmitt, Uwe Reichel, Florian Eyben, Felix Burkhardt, Bj\"orn W.
Schuller
- Abstract要約: 音声認識の微調整における言語情報の利用状況について検討する。
テキストの感情を変化させながら、韻律的に中性な発話を合成する。
変圧器モデルの妥当性予測は、否定だけでなく、肯定的および否定的な感情内容に対して非常に反応するが、増強剤や還元剤には反応しない。
- 参考スコア(独自算出の注目度): 7.81884995637243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large, pre-trained neural networks consisting of self-attention layers
(transformers) have recently achieved state-of-the-art results on several
speech emotion recognition (SER) datasets. These models are typically
pre-trained in self-supervised manner with the goal to improve automatic speech
recognition performance -- and thus, to understand linguistic information. In
this work, we investigate the extent in which this information is exploited
during SER fine-tuning. Using a reproducible methodology based on open-source
tools, we synthesise prosodically neutral speech utterances while varying the
sentiment of the text. Valence predictions of the transformer model are very
reactive to positive and negative sentiment content, as well as negations, but
not to intensifiers or reducers, while none of those linguistic features impact
arousal or dominance. These findings show that transformers can successfully
leverage linguistic information to improve their valence predictions, and that
linguistic analysis should be included in their testing.
- Abstract(参考訳): 自己アテンション層(トランスフォーマー)で構成される大規模事前学習ニューラルネットワークが、先日、いくつかの音声感情認識(ser)データセットで最先端の結果を達成した。
これらのモデルは通常、自動音声認識性能を改善すること、そして言語情報を理解することを目的として、自己指導型で事前訓練される。
本研究では,この情報をサーの微調整時に活用する範囲について検討する。
オープンソースツールに基づく再現可能な手法を用いて、テキストの感情を変化させながら、韻律的に中立な発話を合成する。
変圧器モデルの妥当性の予測は、否定と同様に、肯定的および否定的な感情内容に対して非常に反応するが、増強剤や還元剤には反応しない。
これらの結果から,トランスフォーマは言語情報を利用して原子価予測を改善し,言語分析を検査に含めるべきであることが示唆された。
関連論文リスト
- A distributional simplicity bias in the learning dynamics of transformers [50.91742043564049]
自然言語データに基づいてトレーニングされたトランスフォーマーは、単純さのバイアスも示している。
具体的には、入力トークン間の多体相互作用を逐次学習し、低次相互作用の予測誤差において飽和点に達する。
このアプローチは、自然言語処理などにおいて、データ内の異なる順序の相互作用が学習にどのように影響するかを研究する可能性を開く。
論文 参考訳(メタデータ) (2024-10-25T15:39:34Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Enhancing expressivity transfer in textless speech-to-speech translation [0.0]
既存の最先端システムは、様々な言語で正確に表現力の取得と転送に関して不足している。
本研究では,個別音声単位レベルで動作し,多言語感情の埋め込みを利用する新しい手法を提案する。
対象言語における音声単位のピッチと持続時間を効果的に予測するために,これらの埋め込みがどのように使用できるかを示す。
論文 参考訳(メタデータ) (2023-10-11T08:07:22Z) - Acoustic and linguistic representations for speech continuous emotion
recognition in call center conversations [2.0653090022137697]
本稿では,AlloSat corpus へのトランスファー学習の一形態として,事前学習した音声表現の利用について検討する。
実験により,事前学習した特徴を用いて得られた性能の大きな向上を確認した。
驚いたことに、言語内容が満足度予測の主要な要因であることは明らかでした。
論文 参考訳(メタデータ) (2023-10-06T10:22:51Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - Analysis of the Evolution of Advanced Transformer-Based Language Models:
Experiments on Opinion Mining [0.5735035463793008]
本稿では,最先端のトランスフォーマーに基づく言語モデルの意見マイニングにおける挙動について検討する。
私たちの比較研究は、フォーカスするアプローチに関して、プロダクションエンジニアがリードし、道を開く方法を示しています。
論文 参考訳(メタデータ) (2023-08-07T01:10:50Z) - Hate Speech and Offensive Language Detection using an Emotion-aware
Shared Encoder [1.8734449181723825]
ヘイトスピーチと攻撃的言語検出に関する既存の研究は、事前学習されたトランスフォーマーモデルに基づいて有望な結果をもたらす。
本稿では,他コーパスから抽出した外的感情特徴を組み合わせたマルチタスク共同学習手法を提案する。
以上の結果から,感情的な知識が,データセット間のヘイトスピーチや攻撃的言語をより確実に識別する上で有効であることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:31:06Z) - Color Overmodification Emerges from Data-Driven Learning and Pragmatic
Reasoning [53.088796874029974]
話者の指示表現は、実践的な言語使用の性質を照らし出すのに役立つ方法で、コミュニケーションイデアルから逸脱していることを示す。
ニューラルネットワークを学習エージェントとして採用することにより、過度な修正は、頻度の低い、あるいは正常な環境特性に結びつく可能性が高いことを示す。
論文 参考訳(メタデータ) (2022-05-18T18:42:43Z) - Dawn of the transformer era in speech emotion recognition: closing the
valence gap [9.514396745161793]
モデルサイズと事前学習データが下流の性能に及ぼす影響について検討する。
我々は、wav2vec 2.0 と HuBERT の事前訓練されたいくつかの変種を微調整し、クロスコーパスの一般化をテストする。
CNNベースのベースラインに比べて、トランスフォーマーベースのアーキテクチャは、小さな摂動に対してより堅牢であることを示す。
論文 参考訳(メタデータ) (2022-03-14T13:21:47Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - A Controllable Model of Grounded Response Generation [122.7121624884747]
現在のエンドツーエンドのニューラルネットワークモデルは、応答生成プロセスにセマンティックコントロールを課す柔軟性を本質的に欠いている。
我々は制御可能な接地応答生成(CGRG)と呼ばれるフレームワークを提案する。
このフレームワークを用いることで、会話のようなRedditデータセットでトレーニングされた、新しいインダクティブアテンション機構を備えたトランスフォーマーベースのモデルが、強力な生成ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-05-01T21:22:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。