論文の概要: The ACM Multimedia 2022 Computational Paralinguistics Challenge:
Vocalisations, Stuttering, Activity, & Mosquitoes
- arxiv url: http://arxiv.org/abs/2205.06799v1
- Date: Fri, 13 May 2022 17:51:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-16 14:38:04.388609
- Title: The ACM Multimedia 2022 Computational Paralinguistics Challenge:
Vocalisations, Stuttering, Activity, & Mosquitoes
- Title(参考訳): ACM Multimedia 2022 Computational Paralinguistics Challenge: Vocalisations, Stuttering, Activity, and Mosquitoes
- Authors: Bj\"orn W. Schuller, Anton Batliner, Shahin Amiriparian, Christian
Bergler, Maurice Gerczuk, Natalie Holz, Pauline Larrouy-Maestri, Sebastian P.
Bayerl, Korbinian Riedhammer, Adria Mallol-Ragolta, Maria Pateraki, Harry
Coppock, Ivan Kiskin, Marianne Sinka, Stephen Roberts
- Abstract要約: ACM Multimedia 2022 Computational Paralinguistics Challengeは4つの異なる問題に対処する。
Vocalisations and Stuttering Sub-Challengesでは、人間の非言語的発声と音声に関する分類をする必要がある。
Activity Sub-Challengeは、スマートウォッチのセンサーデータから人間の活動を認識することを目的としている。
モスキトース・サブチェレンジでは、蚊を検出する必要がある。
- 参考スコア(独自算出の注目度): 9.09787422797708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ACM Multimedia 2022 Computational Paralinguistics Challenge addresses
four different problems for the first time in a research competition under
well-defined conditions: In the Vocalisations and Stuttering Sub-Challenges, a
classification on human non-verbal vocalisations and speech has to be made; the
Activity Sub-Challenge aims at beyond-audio human activity recognition from
smartwatch sensor data; and in the Mosquitoes Sub-Challenge, mosquitoes need to
be detected. We describe the Sub-Challenges, baseline feature extraction, and
classifiers based on the usual ComPaRE and BoAW features, the auDeep toolkit,
and deep feature extraction from pre-trained CNNs using the DeepSpectRum
toolkit; in addition, we add end-to-end sequential modelling, and a
log-mel-128-BNN.
- Abstract(参考訳): acm multimedia 2022 computational paralinguistics challenge(acmマルチメディア2022 計算パラ言語学チャレンジ)は、明確に定義された条件下での研究競争で初めて4つの異なる問題に対処した: 発声と発声サブチャレンジにおいて、人間の非言語的な発声と音声の分類を行う必要があり、アクティビティサブチャレンジは、スマートウォッチのセンサーデータから、音声以外の人間の活動を認識することを目的としており、蚊サブチャレンジでは蚊を検知する必要がある。
本稿では,通常の比較・boaw機能,audeepツールキット,deepspectrumツールキットを用いたcnnからの深層特徴抽出,エンドツーエンドシーケンシャルモデリング,log-mel-128-bnnを用いたサブチャンジ,ベースライン特徴抽出,分類器について述べる。
関連論文リスト
- The MuSe 2024 Multimodal Sentiment Analysis Challenge: Social Perception and Humor Recognition [64.5207572897806]
マルチモーダル・センティメント・アナリティクス・チャレンジ (MuSe) 2024は、現代の2つのマルチモーダル・インフルエンスと感情分析の問題に対処する。
Social Perception Sub-Challenge (MuSe-Perception)では、参加者は16種類の個人の社会的属性を予測する。
クロスカルカルカルチャー・ヒューモー検出サブチャレンジ(MuSe-Humor)データセットは、Passau Spontaneous Football Coach Humorデータセット上に拡張される。
論文 参考訳(メタデータ) (2024-06-11T22:26:20Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - First Place Solution to the CVPR'2023 AQTC Challenge: A
Function-Interaction Centric Approach with Spatiotemporal Visual-Language
Alignment [15.99008977852437]
AQTC(Affordance-Centric Question-driven Task Completion)は、ビデオから包括的かつ体系的な指示を持つユーザに取得するために提案されている。
既存の手法は、視覚的信号と言語的信号の整合性、および人間の物体間の重要な相互作用情報を無視してきた。
本稿では,安定かつ信頼性の高いマルチモーダルデータに寄与する大規模事前学習型視覚モデルとビデオ言語モデルを組み合わせることを提案する。
論文 参考訳(メタデータ) (2023-06-23T09:02:25Z) - The MuSe 2023 Multimodal Sentiment Analysis Challenge: Mimicked
Emotions, Cross-Cultural Humour, and Personalisation [69.13075715686622]
MuSe 2023は、現代の3つの異なるマルチモーダル感情と感情分析の問題に対処する共有タスクの集合である。
MuSe 2023は、さまざまな研究コミュニティから幅広いオーディエンスを集めようとしている。
論文 参考訳(メタデータ) (2023-05-05T08:53:57Z) - The ACM Multimedia 2023 Computational Paralinguistics Challenge: Emotion
Share & Requests [66.24715220997547]
ACM Multimedia 2023 Paralinguistics Challengeは、明確に定義された条件下で初めて2つの異なる問題に対処する。
Emotion Share Sub-Challengeでは、音声のレグレッションが発生し、Requests Sub-Challengeでは、リクエストと苦情を検出する必要がある。
本稿では,DeepSpectRumツールキットを用いて,事前学習したCNNのサブチャレンジ,ベースライン特徴抽出,および通常のComPaRE特徴に基づく分類器,auDeepツールキット,およびディープ特徴抽出について述べる。
論文 参考訳(メタデータ) (2023-04-28T14:42:55Z) - Burst2Vec: An Adversarial Multi-Task Approach for Predicting Emotion,
Age, and Origin from Vocal Bursts [49.31604138034298]
Burst2Vecは、事前訓練された音声表現を使用して、生波形から音響情報をキャプチャする。
提案モデルでは,事前抽出した特徴を用いて,ベースラインよりも30%の性能向上を実現している。
論文 参考訳(メタデータ) (2022-06-24T18:57:41Z) - Efficient Speech Emotion Recognition Using Multi-Scale CNN and Attention [2.8017924048352576]
本稿では,音声からの音響情報と語彙情報の両方を利用する,シンプルで効率的なニューラルネットワークアーキテクチャを提案する。
マルチスケール・コンボリューション・レイヤ(MSCNN)を用いて音声とテキストのハイドデン表現を得る手法を提案する。
大規模な実験により,提案手法はIEMOCAPdataset上で従来の最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-06-08T06:45:42Z) - The INTERSPEECH 2021 Computational Paralinguistics Challenge: COVID-19
Cough, COVID-19 Speech, Escalation & Primates [34.39118619224786]
INTERSPEECH 2021Computational Paralinguistics Challengeは、4つの異なる問題に初めて対処します。
新型コロナウイルス(covid-19)とcovid-19(covid-19)のスピーチサブチャリエンスでは、covid-19感染のバイナリ分類は、せき声とスピーチに基づいて行わなければならない。
Escalation SubChallengeでは、対話におけるエスカレーションのレベルを3方向評価します。
論文 参考訳(メタデータ) (2021-02-24T21:39:59Z) - The NTT DCASE2020 Challenge Task 6 system: Automated Audio Captioning
with Keywords and Sentence Length Estimation [49.41766997393417]
本報告では, 音響シーン・イベントの検出・分類に関わるシステムについて述べる。
本論文は,音声の自動字幕化における2つの不確定性,すなわち,単語選択不確定性と文長不確定性に焦点をあてる。
マルチタスク学習によりキーワードと文長を推定することにより,主字幕生成と部分不確定化を同時に解決する。
論文 参考訳(メタデータ) (2020-07-01T04:26:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。