論文の概要: Exploring Differences between Human Perception and Model Inference in Audio Event Recognition
- arxiv url: http://arxiv.org/abs/2409.06580v1
- Date: Tue, 10 Sep 2024 15:19:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 17:11:29.974493
- Title: Exploring Differences between Human Perception and Model Inference in Audio Event Recognition
- Title(参考訳): 音声イベント認識における人間の知覚とモデル推論の差異の探索
- Authors: Yizhou Tan, Yanru Wu, Yuanbo Hou, Xin Xu, Hui Bu, Shengchen Li, Dick Botteldooren, Mark D. Plumbley,
- Abstract要約: 本稿では,AER(Audio Event Recognition)における意味的重要性の概念を紹介する。
人間の知覚とモデル推論の違いを探求することに焦点を当てている。
本稿では,人間のアノテーションとアンサンブル事前学習モデルの予測を比較することで,人間の知覚とモデル推論の間に有意な差があることを明らかにする。
- 参考スコア(独自算出の注目度): 26.60579496336448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio Event Recognition (AER) traditionally focuses on detecting and identifying audio events. Most existing AER models tend to detect all potential events without considering their varying significance across different contexts. This makes the AER results detected by existing models often have a large discrepancy with human auditory perception. Although this is a critical and significant issue, it has not been extensively studied by the Detection and Classification of Sound Scenes and Events (DCASE) community because solving it is time-consuming and labour-intensive. To address this issue, this paper introduces the concept of semantic importance in AER, focusing on exploring the differences between human perception and model inference. This paper constructs a Multi-Annotated Foreground Audio Event Recognition (MAFAR) dataset, which comprises audio recordings labelled by 10 professional annotators. Through labelling frequency and variance, the MAFAR dataset facilitates the quantification of semantic importance and analysis of human perception. By comparing human annotations with the predictions of ensemble pre-trained models, this paper uncovers a significant gap between human perception and model inference in both semantic identification and existence detection of audio events. Experimental results reveal that human perception tends to ignore subtle or trivial events in the event semantic identification, while model inference is easily affected by events with noises. Meanwhile, in event existence detection, models are usually more sensitive than humans.
- Abstract(参考訳): AER(Audio Event Recognition)は、伝統的に音声イベントの検出と識別に重点を置いている。
既存のAERモデルは、異なるコンテキスト間で異なる意味を考慮せずに、すべての潜在的な事象を検出する傾向にある。
これにより、既存のモデルで検出されたAERの結果は、人間の聴覚知覚と大きな差があることが多い。
これは重要かつ重要な問題であるが、時間を要する労働集約的な解決法であるため、音響シーン・事象の検出・分類(DCASE)コミュニティでは広く研究されていない。
そこで本研究では,AERにおける意味的重要性の概念を導入し,人間の知覚とモデル推論の差異について考察する。
本稿では,10個のプロのアノテータによってラベル付けされた音声を収録したマルチアノテート・フォアグラウンド音声イベント認識(MAFAR)データセットを構築した。
頻度と分散をラベル付けすることで、MAFARデータセットは人間の知覚の意味的重要性と分析の定量化を促進する。
本稿では,人間のアノテーションとアンサンブル事前学習モデルの予測を比較することで,音声イベントのセマンティック識別と存在検出の両方において,人間の知覚とモデル推論の間に有意な差があることを明らかにする。
実験の結果、人間の知覚は事象の意味的識別において微妙な事象や自明な事象を無視する傾向にあり、一方モデル推論はノイズを伴う事象に容易に影響を受けることが明らかとなった。
一方、事象検出においては、モデルは通常人間よりも敏感である。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - Unveiling and Mitigating Bias in Audio Visual Segmentation [9.427676046134374]
コミュニティ研究者は、物体のマスクの音質を改善するために、様々な高度なオーディオ視覚セグメンテーションモデルを開発した。
これらのモデルによって作られたマスクは、最初は可塑性に見えるかもしれないが、しばしば誤った接地論理を持つ異常を示す。
我々はこれを、複雑なオーディオ・視覚的グラウンドよりも単純な学習信号として、現実世界固有の嗜好と分布に帰着する。
論文 参考訳(メタデータ) (2024-07-23T16:55:04Z) - Evaluating Speaker Identity Coding in Self-supervised Models and Humans [0.42303492200814446]
話者のアイデンティティは、人間のコミュニケーションにおいて重要な役割を担い、社会的応用においてますます利用されている。
本研究では, 話者識別において, 音響的表現よりも, 話者識別において, 異なる家族の自己指導的表現の方が有意に優れていることを示す。
また、このような話者識別タスクは、これらの強力なネットワークの異なる層における音響情報表現の性質をよりよく理解するためにも利用できることを示す。
論文 参考訳(メタデータ) (2024-06-14T20:07:21Z) - Predicting Heart Activity from Speech using Data-driven and Knowledge-based features [19.14666002797423]
自己教師型音声モデルは, 心臓活動パラメータの予測において, 音響特性よりも優れていることを示す。
これらの結果は、こうしたタスクにおけるデータ駆動型表現の価値を浮き彫りにした。
論文 参考訳(メタデータ) (2024-06-10T15:01:46Z) - Double Mixture: Towards Continual Event Detection from Speech [60.33088725100812]
音声イベント検出は、セマンティックイベントと音響イベントの両方のタグ付けを含むマルチメディア検索に不可欠である。
本稿では, 音声イベント検出における主な課題として, 過去の出来事を忘れることなく新たな事象を連続的に統合すること, 音響イベントからの意味のゆがみについて述べる。
本稿では,適応性を向上し,忘れることを防止するために,音声の専門知識と堅牢な記憶機構を融合する新しい手法「ダブルミキチャー」を提案する。
論文 参考訳(メタデータ) (2024-04-20T06:32:00Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - An Ordinal Latent Variable Model of Conflict Intensity [59.49424978353101]
ゴールドスタインスケール(Goldstein scale)は、紛争・協力的なスケールでイベントをスコアする、広く使われている専門家ベースの尺度である。
本稿では、競合強度を測定するために、潜伏変数に基づくアプローチをとる。
論文 参考訳(メタデータ) (2022-10-08T08:59:17Z) - Few-shot bioacoustic event detection at the DCASE 2022 challenge [0.0]
わずかにラベル付き例があるにも関わらず、音声イベント検出は音イベントを検出するタスクである。
本稿では,DCASE 2022チャレンジに含まれるバイオアコースティック音響イベント検出タスクの第2版の概要について述べる。
最も高いFスコアは、評価セットの60%であり、昨年の版よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-07-14T09:33:47Z) - Audio-visual Representation Learning for Anomaly Events Detection in
Crowds [119.72951028190586]
本稿では,音声と視覚信号の同時モデリングにおけるマルチモーダル学習の活用を試みる。
監視シーンにおける合成音声視覚データセットであるSHADEデータセットについて実験を行った。
音声信号の導入は,異常事象の検出性能を効果的に向上し,他の最先端手法よりも優れることがわかった。
論文 参考訳(メタデータ) (2021-10-28T02:42:48Z) - Transferring Voice Knowledge for Acoustic Event Detection: An Empirical
Study [11.825240267691209]
本稿では,話者データセットから抽出した高レベル音声表現を伝達して,音響イベント検出パイプラインを強化する可能性について検討する。
AEDプロセス中に音声と音響の特徴を共同学習するためのデュアルブランチニューラルネットワークアーキテクチャを開発した。
論文 参考訳(メタデータ) (2021-10-07T04:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。