論文の概要: Utilizing synthetic training data for the supervised classification of
rat ultrasonic vocalizations
- arxiv url: http://arxiv.org/abs/2303.03183v2
- Date: Fri, 19 Jan 2024 02:31:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 19:26:13.655509
- Title: Utilizing synthetic training data for the supervised classification of
rat ultrasonic vocalizations
- Title(参考訳): ラット超音波発声の教師付き分類における合成訓練データの利用
- Authors: K. Jack Scott, Lucinda J. Speers, David K. Bilkey
- Abstract要約: ミューリンは120kHzの周波数で超音波発声(USV)を発生させる。
これらの呼び出しは社会的行動において重要であるため、その分析は声道コミュニケーションの機能とその機能に関する洞察を与えることができる。
我々は、ラットのUSVを含むオーディオにおいて、訓練された人間の2つの畳み込みニューラルネットワーク(CNN)、DeepSqueak、VocalMatの検出と分類性能を比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Murine rodents generate ultrasonic vocalizations (USVs) with frequencies that
extend to around 120kHz. These calls are important in social behaviour, and so
their analysis can provide insights into the function of vocal communication,
and its dysfunction. The manual identification of USVs, and subsequent
classification into different subcategories is time consuming. Although machine
learning approaches for identification and classification can lead to enormous
efficiency gains, the time and effort required to generate training data can be
high, and the accuracy of current approaches can be problematic. Here we
compare the detection and classification performance of a trained human against
two convolutional neural networks (CNNs), DeepSqueak and VocalMat, on audio
containing rat USVs. Furthermore, we test the effect of inserting synthetic
USVs into the training data of the VocalMat CNN as a means of reducing the
workload associated with generating a training set. Our results indicate that
VocalMat outperformed the DeepSqueak CNN on measures of call identification,
and classification. Additionally, we found that the augmentation of training
data with synthetic images resulted in a further improvement in accuracy, such
that it was sufficiently close to human performance to allow for the use of
this software in laboratory conditions.
- Abstract(参考訳): ミューリンは120kHzの周波数で超音波発声(USV)を発生させる。
これらの呼び出しは社会的行動において重要であり、その分析は音声コミュニケーションの機能とその機能に関する洞察を与えることができる。
USVを手動で識別し、その後に異なるサブカテゴリに分類するのは時間を要する。
識別と分類のための機械学習アプローチは、膨大な効率向上をもたらす可能性があるが、トレーニングデータを生成するのに必要な時間と労力は高くなり、現在のアプローチの正確性に問題がある。
ここでは、訓練を受けた人間の検出と分類性能を、ラット usv を含む音声を用いて、2つの畳み込みニューラルネットワーク(cnns)、deepsqueak と vocalmatと比較する。
さらに,訓練セット作成に伴う作業負荷を低減する手段として,合成usvsを声質cnnの訓練データに挿入する効果を検証した。
以上の結果から,VocalMatはDeepSqueak CNNよりも通話識別や分類に優れていた。
また,合成画像を用いたトレーニングデータの強化により,人間の性能に十分近い精度が向上し,実験環境での利用が可能となった。
関連論文リスト
- Investigating the Robustness of Vision Transformers against Label Noise
in Medical Image Classification [8.578500152567164]
医用画像分類データセットにおけるラベルノイズは、教師付き深層学習法の訓練を邪魔する。
プレトレーニングは、教師あり訓練におけるラベルノイズに対するViTの堅牢性向上に不可欠であることを示す。
論文 参考訳(メタデータ) (2024-02-26T16:53:23Z) - Self-Supervised Pretraining Improves Performance and Inference
Efficiency in Multiple Lung Ultrasound Interpretation Tasks [65.23740556896654]
肺超音波検査における複数分類課題に適用可能なニューラルネットワーク特徴抽出器を,自己指導型プレトレーニングで作成できるかどうかを検討した。
3つの肺超音波のタスクを微調整すると、事前訓練されたモデルにより、各テストセットの受信操作曲線(AUC)における平均クロスタスク面積は、それぞれ0.032と0.061に改善された。
論文 参考訳(メタデータ) (2023-09-05T21:36:42Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - Objective hearing threshold identification from auditory brainstem
response measurements using supervised and self-supervised approaches [1.0627340704073347]
平均ABR生データから聴力閾値の自動同定を行う2つの手法を開発し比較する。
両モデルが正常に動作し、人間の閾値検出より優れ、高速で信頼性が高く、偏りのない聴力閾値検出と品質制御に適していることを示す。
論文 参考訳(メタデータ) (2021-12-16T15:24:31Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Deep Learning-based Cattle Activity Classification Using Joint
Time-frequency Data Representation [2.472770436480857]
本稿では,牛の行動・行動の分類と行動モデルの構築にシーケンシャルディープニューラルネットワークを用いた。
本研究の主な焦点は,センサデータの同時時間周波数領域表現の探索である。
3軸加速度計、磁力計、ジャイロスコープのセンサーから収集された300万以上のサンプルからなる実世界のデータセットに基づいています。
論文 参考訳(メタデータ) (2020-11-06T14:24:55Z) - Surgical Mask Detection with Convolutional Neural Networks and Data
Augmentations on Spectrograms [8.747840760772268]
人間の声のサンプルにおける手術用マスク検出の2値分類タスクに対するデータ拡張の効果を示す。
結果、ComParEのベースラインのほとんどがパフォーマンスに優れていたことが判明した。
論文 参考訳(メタデータ) (2020-08-11T09:02:47Z) - Rectified Meta-Learning from Noisy Labels for Robust Image-based Plant
Disease Diagnosis [64.82680813427054]
植物病は食料安全保障と作物生産に対する主要な脅威の1つである。
1つの一般的なアプローチは、葉画像分類タスクとしてこの問題を変換し、強力な畳み込みニューラルネットワーク(CNN)によって対処できる。
本稿では,正規化メタ学習モジュールを共通CNNパラダイムに組み込んだ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-17T09:51:30Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z) - CURE Dataset: Ladder Networks for Audio Event Classification [15.850545634216484]
約300万人が聴覚障害を抱えており、周囲で起きている出来事を認識できない。
本稿では,難聴者に対して最も関連性の高い特定の音声イベントをキュレートしたCUREデータセットを確立する。
論文 参考訳(メタデータ) (2020-01-12T09:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。