論文の概要: INTERSPEECH 2009 Emotion Challenge Revisited: Benchmarking 15 Years of Progress in Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2406.06401v1
- Date: Mon, 10 Jun 2024 15:55:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 13:18:57.710115
- Title: INTERSPEECH 2009 Emotion Challenge Revisited: Benchmarking 15 Years of Progress in Speech Emotion Recognition
- Title(参考訳): InterSPEECH 2009 Emotion Challenge revisited: 音声感情認識の15年間の進歩のベンチマーク
- Authors: Andreas Triantafyllopoulos, Anton Batliner, Simon Rampp, Manuel Milling, Björn Schuller,
- Abstract要約: 我々は、InterSPEECH 2009 Emotion Challenge -- 初めてスピーチ感情認識(SER)チャレンジを再考する。
我々は,SER研究の大きな進歩を示す一連の深層学習モデルを評価する。
- 参考スコア(独自算出の注目度): 5.303788012608604
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We revisit the INTERSPEECH 2009 Emotion Challenge -- the first ever speech emotion recognition (SER) challenge -- and evaluate a series of deep learning models that are representative of the major advances in SER research in the time since then. We start by training each model using a fixed set of hyperparameters, and further fine-tune the best-performing models of that initial setup with a grid search. Results are always reported on the official test set with a separate validation set only used for early stopping. Most models score below or close to the official baseline, while they marginally outperform the original challenge winners after hyperparameter tuning. Our work illustrates that, despite recent progress, FAU-AIBO remains a very challenging benchmark. An interesting corollary is that newer methods do not consistently outperform older ones, showing that progress towards `solving' SER is not necessarily monotonic.
- Abstract(参考訳): 私たちは、最初のスピーチ感情認識(SER)チャレンジであるInterSPEECH 2009 Emotion Challengeを再考し、それ以来のSER研究の大きな進歩を代表する一連のディープラーニングモデルを評価します。
まず、固定されたハイパーパラメータを使って各モデルをトレーニングし、グリッドサーチによってその初期設定の最高のパフォーマンスモデルをさらに微調整する。
結果は、早期停止にのみ使用される別個の検証セットで、公式テストセットで常に報告される。
ほとんどのモデルは公式のベースラインより下または近くで得点し、ハイパーパラメーターチューニングの後、オリジナルのチャレンジ勝者よりわずかに上回っている。
我々の研究は、最近の進歩にもかかわらず、FAU-AIBOは依然として非常に難しいベンチマークであることを示している。
興味深い結論は、新しいメソッドが古いメソッドを一貫して上回り、'解決' SER への進歩が必ずしも単調であるとは限らないことを示すことである。
関連論文リスト
- Beyond human subjectivity and error: a novel AI grading system [67.410870290301]
オープンエンドの質問の格付けは、教育における高い努力と高いインパクトの課題である。
AI技術の最近のブレークスルーは、このような自動化を促進するかもしれないが、大規模に実証されていない。
本稿では,新しい自動短解階調システム(ASAG)を提案する。
論文 参考訳(メタデータ) (2024-05-07T13:49:59Z) - Leveraging TCN and Transformer for effective visual-audio fusion in
continuous emotion recognition [0.5370906227996627]
本稿では,Valence-Arousal (VA) Estimation Challenge, Expression (Expr) Classification Challenge, Action Unit (AU) Detection Challengeを提案する。
本稿では、時間的畳み込みネットワーク(TCN)とトランスフォーマーを利用して、連続的な感情認識の性能を向上させる新しいマルチモーダル融合モデルを提案する。
論文 参考訳(メタデータ) (2023-03-15T04:15:57Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z) - An Overview & Analysis of Sequence-to-Sequence Emotional Voice
Conversion [8.94336505787464]
EVCの課題を克服するための競争パラダイムとして、シーケンス・ツー・シーケンス・モデリングが登場しています。
近年のシークエンス・ツー・シークエンスECV論文を6つの視点から検討・レビューした。
この情報は、研究コミュニティに現在の最先端の分かりやすい概要を提供するために組織されている。
論文 参考訳(メタデータ) (2022-03-29T19:41:34Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Utilizing Self-supervised Representations for MOS Prediction [51.09985767946843]
既存の評価は通常、クリーンな参照または平行な地上真実データを必要とする。
一方、主観的テストは、追加のクリーンデータや並列データを必要としず、人間の知覚とよりよく相関する。
基礎的真理データを必要とせず,人間の知覚とよく相関する自動評価手法を開発した。
論文 参考訳(メタデータ) (2021-04-07T09:44:36Z) - A Brief Survey and Comparative Study of Recent Development of Pronoun
Coreference Resolution [55.39835612617972]
PCR(Pronoun Coreference Resolution)は、プロノミナルな表現を、それらが参照するすべての言及に対して解決するタスクである。
1つの重要な自然言語理解(NLU)コンポーネントとして、代名詞分解は多くの下流タスクにおいて不可欠であり、既存のモデルでは依然として困難である。
我々は、現在のモデルが標準評価セットで優れたパフォーマンスを達成しているにもかかわらず、実際のアプリケーションで使用する準備ができていないことを示すために、広範な実験を行っている。
論文 参考訳(メタデータ) (2020-09-27T01:40:01Z) - TAL EmotioNet Challenge 2020 Rethinking the Model Chosen Problem in
Multi-Task Learning [24.365090805937083]
我々はマルチタスク学習問題としてAU認識問題を提起する。
表情特徴と頭部ポーズ特徴の共起について検討した。
各AUに対して最適なチェックポイントを選択することにより、認識結果が改善される。
論文 参考訳(メタデータ) (2020-04-21T09:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。