論文の概要: Enrolment-based personalisation for improving individual-level fairness in speech emotion recognition
- arxiv url: http://arxiv.org/abs/2406.06665v1
- Date: Mon, 10 Jun 2024 16:01:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 20:35:12.758345
- Title: Enrolment-based personalisation for improving individual-level fairness in speech emotion recognition
- Title(参考訳): 音声感情認識における個人レベルの公平性向上のためのエンロメントに基づくパーソナライゼーション
- Authors: Andreas Triantafyllopoulos, Björn Schuller,
- Abstract要約: 本稿では,各話者に対してSERモデルを適用するために,個人差に着目した新たな手法を提案する。
また、異なる話者間での公平性を測定するための新しい評価手法を提案する。
- 参考スコア(独自算出の注目度): 4.820994738358864
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The expression of emotion is highly individualistic. However, contemporary speech emotion recognition (SER) systems typically rely on population-level models that adopt a `one-size-fits-all' approach for predicting emotion. Moreover, standard evaluation practices measure performance also on the population level, thus failing to characterise how models work across different speakers. In the present contribution, we present a new method for capitalising on individual differences to adapt an SER model to each new speaker using a minimal set of enrolment utterances. In addition, we present novel evaluation schemes for measuring fairness across different speakers. Our findings show that aggregated evaluation metrics may obfuscate fairness issues on the individual-level, which are uncovered by our evaluation, and that our proposed method can improve performance both in aggregated and disaggregated terms.
- Abstract(参考訳): 感情の表現は個性が高い。
しかし、現代の音声感情認識(SER)システムは通常、感情を予測するのに 'one-size-all' アプローチを採用する集団レベルのモデルに依存している。
さらに、標準評価プラクティスは、人口レベルでのパフォーマンスも測定するので、異なる話者間でモデルがどのように機能するかを特徴づけることができない。
本稿では,各話者に対して最小限のエンロルメント発話を用いてSERモデルを適応させる手法を提案する。
さらに,異なる話者間での公平性を評価するための新しい評価手法を提案する。
本研究の結果から, 評価指標の集約化は, 個人レベルでの公平性を損なう可能性があり, 提案手法は, 集約化と非集約化の両方において, 性能を向上できる可能性が示唆された。
関連論文リスト
- Revisiting Self-supervised Learning of Speech Representation from a
Mutual Information Perspective [68.20531518525273]
我々は、情報理論の観点から、既存の自己教師型音声の手法を詳しく検討する。
我々は線形プローブを用いて、対象情報と学習された表現の間の相互情報を推定する。
我々は、ラベルを使わずに、データの異なる部分間の相互情報を見積もる自己教師型の表現を評価する可能性を探る。
論文 参考訳(メタデータ) (2024-01-16T21:13:22Z) - Automated Evaluation of Personalized Text Generation using Large
Language Models [38.2211640679274]
生成したテキストの3つの主要な意味的側面(パーソナライズ、品質、関連性)を抽出し、これらの側面を自動的に測定する新しい評価手法であるAuPELを提案する。
既存の評価指標と比較して、AuPELはパーソナライズ能力に基づいてモデルの識別とランク付けを行うだけでなく、このタスクに対する信頼できる一貫性と効率を示す。
論文 参考訳(メタデータ) (2023-10-17T21:35:06Z) - On the Behavior of Intrusive and Non-intrusive Speech Enhancement
Metrics in Predictive and Generative Settings [14.734454356396157]
予測的および生成的パラダイムの下で訓練された同じ音声強調バックボーンの性能を評価する。
侵入的・非侵入的尺度は各パラダイムごとに異なる相関関係を示す。
論文 参考訳(メタデータ) (2023-06-05T16:30:17Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - Pre-Finetuning for Few-Shot Emotional Speech Recognition [61.463533069294414]
我々は話者適応を数発の学習問題と見なしている。
そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
論文 参考訳(メタデータ) (2023-02-24T22:38:54Z) - Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - Measuring and Improving Semantic Diversity of Dialogue Generation [21.59385143783728]
生成した応答のセマンティックな多様性を測定するための新しい自動評価指標を提案する。
提案手法は,既存の語彙レベルの多様性指標よりも,応答の多様性に関する人間の判断をよりよく捉えていることを示す。
また、生成した応答のセマンティックな多様性を改善するための、シンプルで効果的な学習方法を提案する。
論文 参考訳(メタデータ) (2022-10-11T18:36:54Z) - SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption
Evaluation via Typicality Analysis [20.026835809227283]
情報理論に根ざした評価の新しい定式化である「定型性」を導入する。
これらの分割された意味論と流布の次元が、キャプタの違いに関するシステムレベルの洞察をいかに与えているかを示す。
提案手法とそれらの組み合わせであるSMURFは,他のルールベース評価指標と比較した場合,人間の判断と最先端の相関が得られた。
論文 参考訳(メタデータ) (2021-06-02T19:58:20Z) - Towards Quantifiable Dialogue Coherence Evaluation [126.55560816209756]
量的対話コヒーレンス評価(QuantiDCE)は,量的対話コヒーレンス尺度の学習を目的とした新しいフレームワークである。
QuantiDCEには、Multi-Level Ranking (MLR) pre-training (KD) fine-tuning (Multi-Level Ranking)とKD (KD) fine-tuning (KD) という2つの訓練段階が含まれている。
実験結果から,QuantiDCEによりトレーニングされたモデルは,他の最先端の指標に比べて,人間の判断と強い相関関係を示すことが示された。
論文 参考訳(メタデータ) (2021-06-01T14:11:17Z) - Improving Fairness in Speaker Recognition [4.94706680113206]
最先端の深層話者認識システムによって達成される性能の格差を調査します。
統計学的にバランスのとれたトレーニングセットで訓練されたモデルでは,異なるグループでより公平な行動を示すが,精度は高い。
論文 参考訳(メタデータ) (2021-04-29T01:08:53Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。