論文の概要: The ACM Multimedia 2023 Computational Paralinguistics Challenge: Emotion
Share & Requests
- arxiv url: http://arxiv.org/abs/2304.14882v2
- Date: Mon, 1 May 2023 07:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 10:34:20.764922
- Title: The ACM Multimedia 2023 Computational Paralinguistics Challenge: Emotion
Share & Requests
- Title(参考訳): ACMマルチメディア2023計算パラ言語問題:感情共有と要求
- Authors: Bj\"orn W. Schuller, Anton Batliner, Shahin Amiriparian, Alexander
Barnhill, Maurice Gerczuk, Andreas Triantafyllopoulos, Alice Baird,
Panagiotis Tzirakis, Chris Gagne, Alan S. Cowen, Nikola Lackovic,
Marie-Jos\'e Caraty, Claude Montaci\'e
- Abstract要約: ACM Multimedia 2023 Paralinguistics Challengeは、明確に定義された条件下で初めて2つの異なる問題に対処する。
Emotion Share Sub-Challengeでは、音声のレグレッションが発生し、Requests Sub-Challengeでは、リクエストと苦情を検出する必要がある。
本稿では,DeepSpectRumツールキットを用いて,事前学習したCNNのサブチャレンジ,ベースライン特徴抽出,および通常のComPaRE特徴に基づく分類器,auDeepツールキット,およびディープ特徴抽出について述べる。
- 参考スコア(独自算出の注目度): 66.24715220997547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ACM Multimedia 2023 Computational Paralinguistics Challenge addresses two
different problems for the first time in a research competition under
well-defined conditions: In the Emotion Share Sub-Challenge, a regression on
speech has to be made; and in the Requests Sub-Challenges, requests and
complaints need to be detected. We describe the Sub-Challenges, baseline
feature extraction, and classifiers based on the usual ComPaRE features, the
auDeep toolkit, and deep feature extraction from pre-trained CNNs using the
DeepSpectRum toolkit; in addition, wav2vec2 models are used.
- Abstract(参考訳): acm multimedia 2023 computational paralinguistics challenge では、感情共有サブチャレンジでは、音声に対する回帰が必要であり、リクエストサブチャレンスでは、要求と苦情を検出する必要がある。
本稿では,通常の比較機能,audeep toolkit,deepspectrum toolkitを用いたcnnからの深層特徴抽出,wav2vec2モデルを用いたサブチャンジ,ベースライン特徴抽出,分類器について述べる。
関連論文リスト
- Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [102.31558123570437]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - The MuSe 2024 Multimodal Sentiment Analysis Challenge: Social Perception and Humor Recognition [64.5207572897806]
マルチモーダル・センティメント・アナリティクス・チャレンジ (MuSe) 2024は、現代の2つのマルチモーダル・インフルエンスと感情分析の問題に対処する。
Social Perception Sub-Challenge (MuSe-Perception)では、参加者は16種類の個人の社会的属性を予測する。
クロスカルカルカルチャー・ヒューモー検出サブチャレンジ(MuSe-Humor)データセットは、Passau Spontaneous Football Coach Humorデータセット上に拡張される。
論文 参考訳(メタデータ) (2024-06-11T22:26:20Z) - Hierarchical Audio-Visual Information Fusion with Multi-label Joint
Decoding for MER 2023 [51.95161901441527]
本稿では,離散的感情と次元的感情の両方を認識するための新しい枠組みを提案する。
基礎モデルから抽出した深い特徴は、生ビデオの頑健な音響的および視覚的表現として使用される。
我々の最終システムは最先端のパフォーマンスを達成し、MER-MULTIサブチャレンジのリーダーボードで3位にランクインする。
論文 参考訳(メタデータ) (2023-09-11T03:19:10Z) - Cascaded Cross-Modal Transformer for Request and Complaint Detection [31.359578768463752]
本稿では、音声とテキストの書き起こしを組み合わせて、電話会話における顧客の要求や苦情を検出する新しいケースケード・クロスモーダル・トランスフォーマー(CCMT)を提案する。
提案手法は,自動音声認識(ASR)モデルを用いて音声を翻訳し,異なる言語に翻訳することで,マルチモーダルパラダイムを活用する。
我々は,ACMマルチメディア計算2023パラ言語学チャレンジの要求サブアーキテクチャに適用し,不当な平均リコール(UAR)を65.41%,要求クラスを85.87%とした。
論文 参考訳(メタデータ) (2023-07-27T13:45:42Z) - 2nd Place Winning Solution for the CVPR2023 Visual Anomaly and Novelty
Detection Challenge: Multimodal Prompting for Data-centric Anomaly Detection [10.682758791557436]
本稿では,CVPR2023 Visual Anomaly and Novelty Detection (VAND) の課題に対して,Segment Any Anomaly チームが勝利したソリューションを紹介した。
マルチモーダルプロンプトを用いたゼロショット異常セグメンテーションのための新しいフレームワーク、すなわちセグメンツ・アノマリー + (SAA$+$) を提案する。
CVPR2023 VANで勝利したソリューションのコードを公開します。
論文 参考訳(メタデータ) (2023-06-15T11:49:44Z) - The MuSe 2023 Multimodal Sentiment Analysis Challenge: Mimicked
Emotions, Cross-Cultural Humour, and Personalisation [69.13075715686622]
MuSe 2023は、現代の3つの異なるマルチモーダル感情と感情分析の問題に対処する共有タスクの集合である。
MuSe 2023は、さまざまな研究コミュニティから幅広いオーディエンスを集めようとしている。
論文 参考訳(メタデータ) (2023-05-05T08:53:57Z) - Burst2Vec: An Adversarial Multi-Task Approach for Predicting Emotion,
Age, and Origin from Vocal Bursts [49.31604138034298]
Burst2Vecは、事前訓練された音声表現を使用して、生波形から音響情報をキャプチャする。
提案モデルでは,事前抽出した特徴を用いて,ベースラインよりも30%の性能向上を実現している。
論文 参考訳(メタデータ) (2022-06-24T18:57:41Z) - The ACM Multimedia 2022 Computational Paralinguistics Challenge:
Vocalisations, Stuttering, Activity, & Mosquitoes [9.09787422797708]
ACM Multimedia 2022 Computational Paralinguistics Challengeは4つの異なる問題に対処する。
Vocalisations and Stuttering Sub-Challengesでは、人間の非言語的発声と音声に関する分類をする必要がある。
Activity Sub-Challengeは、スマートウォッチのセンサーデータから人間の活動を認識することを目的としている。
モスキトース・サブチェレンジでは、蚊を検出する必要がある。
論文 参考訳(メタデータ) (2022-05-13T17:51:45Z) - The INTERSPEECH 2021 Computational Paralinguistics Challenge: COVID-19
Cough, COVID-19 Speech, Escalation & Primates [34.39118619224786]
INTERSPEECH 2021Computational Paralinguistics Challengeは、4つの異なる問題に初めて対処します。
新型コロナウイルス(covid-19)とcovid-19(covid-19)のスピーチサブチャリエンスでは、covid-19感染のバイナリ分類は、せき声とスピーチに基づいて行わなければならない。
Escalation SubChallengeでは、対話におけるエスカレーションのレベルを3方向評価します。
論文 参考訳(メタデータ) (2021-02-24T21:39:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。