論文の概要: Sound Tagging in Infant-centric Home Soundscapes
- arxiv url: http://arxiv.org/abs/2406.17190v1
- Date: Tue, 25 Jun 2024 00:15:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 16:11:02.002229
- Title: Sound Tagging in Infant-centric Home Soundscapes
- Title(参考訳): 幼児中心型ホームサウンドスケープにおける音のタグ付け
- Authors: Mohammad Nur Hossain Khan, Jialu Li, Nancy L. McElwain, Mark Hasegawa-Johnson, Bashima Islam,
- Abstract要約: 本研究では,家庭内における幼児中心音環境における大規模事前学習モデルの性能について検討する。
この結果から,収集したデータセットと公開データセットを組み合わせることで,F1スコアを増大させることで,モデルを微調整できることが示唆された。
- 参考スコア(独自算出の注目度): 30.76025173544015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Certain environmental noises have been associated with negative developmental outcomes for infants and young children. Though classifying or tagging sound events in a domestic environment is an active research area, previous studies focused on data collected from a non-stationary microphone placed in the environment or from the perspective of adults. Further, many of these works ignore infants or young children in the environment or have data collected from only a single family where noise from the fixed sound source can be moderate at the infant's position or vice versa. Thus, despite the recent success of large pre-trained models for noise event detection, the performance of these models on infant-centric noise soundscapes in the home is yet to be explored. To bridge this gap, we have collected and labeled noises in home soundscapes from 22 families in an unobtrusive manner, where the data are collected through an infant-worn recording device. In this paper, we explore the performance of a large pre-trained model (Audio Spectrogram Transformer [AST]) on our noise-conditioned infant-centric environmental data as well as publicly available home environmental datasets. Utilizing different training strategies such as resampling, utilizing public datasets, mixing public and infant-centric training sets, and data augmentation using noise and masking, we evaluate the performance of a large pre-trained model on sparse and imbalanced infant-centric data. Our results show that fine-tuning the large pre-trained model by combining our collected dataset with public datasets increases the F1-score from 0.11 (public datasets) and 0.76 (collected datasets) to 0.84 (combined datasets) and Cohen's Kappa from 0.013 (public datasets) and 0.77 (collected datasets) to 0.83 (combined datasets) compared to only training with public or collected datasets, respectively.
- Abstract(参考訳): ある環境騒音は、幼児や幼児の発達に悪影響を及ぼす。
家庭環境における音事象の分類・タグ付けは活発な研究分野であるが, 従来, 環境に置かれる非定常マイクや成人の観点から収集されたデータに着目した研究が盛んであった。
さらに、これらの作品の多くは、環境中の幼児や幼児を無視したり、固定音源からのノイズが幼児の位置で中等度である場合やその逆の場合にのみ、単一の家族から収集されたデータを持っている。
したがって,近年の騒音事象検出のための事前学習モデルの成功にもかかわらず,幼児中心の音環境におけるこれらのモデルの性能についてはまだ検討されていない。
このギャップを埋めるため,22家族の家庭音環境の騒音を観測・ラベル付けし,幼児用記録装置を用いて収集した。
本稿では,騒音条件の幼児中心環境データと一般家庭環境データセットを用いた大規模事前学習モデル(Audio Spectrogram Transformer (AST))の性能について検討する。
再サンプリング,公開データセットの利用,公立と幼児中心のトレーニングセットの混合,ノイズとマスキングを用いたデータ拡張など,さまざまなトレーニング戦略を活用することで,スパースおよび不均衡な幼児中心のデータに対する大規模事前学習モデルの性能を評価する。
その結果、収集したデータセットと公開データセットを組み合わせることで、F1スコアを0.11(パブリックデータセット)と0.76(コンパイルデータセット)から0.84(パブリックデータセット)に、Cohen's Kappaを0.013(パブリックデータセット)と0.77(コンパイルデータセット)から0.83(統合データセット)に引き上げた。
関連論文リスト
- Dataset Distillers Are Good Label Denoisers In the Wild [16.626153947696743]
ノイズ除去にデータセット蒸留を利用する新しい手法を提案する。
本手法は,既存の手法に共通するフィードバックループを回避し,訓練効率を向上させる。
各種ノイズ条件下での3つの代表的なデータセット蒸留法(DATM, DANCE, RCIG)を厳格に評価した。
論文 参考訳(メタデータ) (2024-11-18T06:26:41Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - NASTAR: Noise Adaptive Speech Enhancement with Target-Conditional
Resampling [34.565077865854484]
ターゲット条件再サンプリング(NASTAR)を用いた雑音適応音声強調手法を提案する。
NASTARはフィードバック機構を使用して、ノイズ抽出器と検索モデルを介して適応的なトレーニングデータをシミュレートする。
実験結果から,NASTARは1つの雑音のある音声サンプルを効果的に使用して,SEモデルを目標条件に適応させることができることがわかった。
論文 参考訳(メタデータ) (2022-06-18T00:15:48Z) - Learning with Noisy Labels Revisited: A Study Using Real-World Human
Annotations [54.400167806154535]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。
本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。
実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
論文 参考訳(メタデータ) (2021-10-22T22:42:11Z) - Training Classifiers that are Universally Robust to All Label Noise
Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。
ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。
我々の枠組みは概して中~高騒音レベルにおいて優れています。
論文 参考訳(メタデータ) (2021-05-27T13:49:31Z) - Generation and Analysis of Feature-Dependent Pseudo Noise for Training
Deep Neural Networks [0.0]
ノイズの多いラベル付きデータセット上でディープニューラルネットワーク(DNN)をトレーニングすることは難しい問題である。
そこで我々は,DNNのトレーニング予測を,真のラベル情報を保持するクリーンデータセット上で利用することにより,特徴依存型ノイズデータセットを作成するための直感的なアプローチを提案する。
我々は,Pseudoノイズデータセットが,異なる条件における特徴依存ノイズデータセットに類似していることを確認するために,いくつかの実験を行った。
論文 参考訳(メタデータ) (2021-05-22T19:15:26Z) - DASEE A Synthetic Database of Domestic Acoustic Scenes and Events in
Dementia Patients Environment [0.0]
静かで騒々しい環境でエミュレートされたサウンドシーンとイベントで構成された、偏見のない合成国内オーディオデータベースを生成します。
データは、認知症患者の環境で一般的に直面する問題を反映して慎重に収集されます。
クリーンでノイズの多い信号を5秒間隔で抽出し,16kHzで均一にサンプリングした11級データベースを提案する。
論文 参考訳(メタデータ) (2021-04-27T18:51:44Z) - Adaptive Multi-View ICA: Estimation of noise levels for optimal
inference [65.94843987207445]
Adaptive MultiView ICA (AVICA) はノイズの多いICAモデルであり、各ビューは共有された独立したソースと付加的なノイズの線形混合である。
AVICAは、その明示的なMMSE推定器により、他のICA法よりも優れたソース推定値が得られる。
実脳磁図(MEG)データでは,分解がサンプリングノイズに対する感度が低く,ノイズ分散推定が生物学的に妥当であることを示す。
論文 参考訳(メタデータ) (2021-02-22T13:10:12Z) - Infant Crying Detection in Real-World Environments [0.0]
我々は、深度スペクトルと音響特性の両方を利用したモデルを含む、確立された機械学習アプローチを評価した。
780時間以上のラベル付き実世界の音声データから、幼児の泣き声のデータセットを収集し、注釈付けする。
実験結果から,実世界データを用いて実験した涙検出モデルの性能が低下していることが確認された。
論文 参考訳(メタデータ) (2020-05-12T18:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。