論文の概要: Detection of Children Abuse by Voice and Audio Classification by
Short-Time Fourier Transform Machine Learning implemented on Nvidia Edge GPU
device
- arxiv url: http://arxiv.org/abs/2307.15101v1
- Date: Thu, 27 Jul 2023 16:48:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 14:42:25.830708
- Title: Detection of Children Abuse by Voice and Audio Classification by
Short-Time Fourier Transform Machine Learning implemented on Nvidia Edge GPU
device
- Title(参考訳): Nvidia Edge GPUデバイスに実装した短時間フーリエ変換機械学習による音声・音声分類による子どもの虐待検出
- Authors: Jiuqi Yan, Yingxian Chen, W.W.T.Fok
- Abstract要約: この実験は、機械学習を使って子供の声を分類し、認識する。
子供が泣き叫んだり叫んだりすると、直ちに関連する職員に警告が送られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The safety of children in children home has become an increasing social
concern, and the purpose of this experiment is to use machine learning applied
to detect the scenarios of child abuse to increase the safety of children. This
experiment uses machine learning to classify and recognize a child's voice and
predict whether the current sound made by the child is crying, screaming or
laughing. If a child is found to be crying or screaming, an alert is
immediately sent to the relevant personnel so that they can perceive what the
child may be experiencing in a surveillance blind spot and respond in a timely
manner. Together with a hybrid use of video image classification, the accuracy
of child abuse detection can be significantly increased. This greatly reduces
the likelihood that a child will receive violent abuse in the nursery and
allows personnel to stop an imminent or incipient child abuse incident in time.
The datasets collected from this experiment is entirely from sounds recorded on
site at the children home, including crying, laughing, screaming sound and
background noises. These sound files are transformed into spectrograms using
Short-Time Fourier Transform, and then these image data are imported into a CNN
neural network for classification, and the final trained model can achieve an
accuracy of about 92% for sound detection.
- Abstract(参考訳): 子どもの家庭における子どもの安全は、社会的な懸念が高まっており、この実験の目的は、児童虐待のシナリオを検知して子どもの安全を高めるために機械学習を応用することである。
この実験では、機械学習を用いて子供の声を分類し、認識し、子供が鳴いたり叫んだりしているかどうかを予測する。
子供が泣いている、または叫んでいると分かったら、直ちに関係者に警告を送り、監視盲点において子供が経験しているかもしれないことを認識し、タイムリーに応答できるようにする。
ビデオ画像分類のハイブリッド利用により、児童虐待検出の精度が著しく向上する。
これにより、子供が保育所で暴力的な虐待を受ける可能性を大幅に減らし、時間内に差し迫った、または差し迫った児童虐待事件を止めることができる。
この実験で収集されたデータセットは、泣き声、笑い声、叫び声、背景雑音など、子供たちの自宅で録音された音からできている。
これらの音声ファイルはショートタイムフーリエ変換を用いてスペクトログラムに変換され、これらの画像データは分類のためにCNNニューラルネットワークにインポートされ、最終的な訓練されたモデルは、約92%の精度で音響検出を行うことができる。
関連論文リスト
- Self-supervised learning for infant cry analysis [2.7973623341455602]
本研究は,1000人以上の新生児の臨床徴候を含む泣き声のデータベースを解析するための自己教師付き学習(SSL)について検討する。
具体的には, 痛み, 飢え, 不快感などの涙の引き金の同定とともに, 涙による神経障害の検出を標的とした。
SSLコントラスト損失(SimCLR)によるプレトレーニングは,神経損傷と涙の引き金の両方に対する教師付きプレトレーニングよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-05-02T16:27:18Z) - Weakly Supervised Detection of Baby Cry [14.778851751964936]
本稿では,乳児の泣き声を検出するために,弱教師付き異常検出法を提案する。
この弱い監視では、オーディオファイルに泣き声がある場合にのみ弱いアノテーションが必要である。
論文 参考訳(メタデータ) (2023-04-19T22:38:45Z) - SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio Detection [54.74467470358476]
本稿では,シーンフェイク音声検出のためのデータセットSceneFakeを提案する。
操作されたオーディオは、オリジナルオーディオの音響シーンを改ざんするだけで生成される。
本論文では,SceneFakeデータセット上での擬似音声検出ベンチマーク結果について報告する。
論文 参考訳(メタデータ) (2022-11-11T09:05:50Z) - Low-dimensional representation of infant and adult vocalization
acoustics [2.1826796927092214]
本研究では, スペクトル特徴抽出と教師なし機械学習, 特にUniform Manifold Approximation (UMAP) を用いて, 乳幼児の2次元空間的表現と, 在宅録音から抽出した介護者の発声について検討した。
例えば,乳児の2次元空間内における発声音の分散は3カ月から9か月に増加し,その後9か月から18カ月に減少した。
論文 参考訳(メタデータ) (2022-04-25T17:58:13Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Classifying Autism from Crowdsourced Semi-Structured Speech Recordings:
A Machine Learning Approach [0.9945783208680666]
本研究では,家庭環境における自閉症・ニューロタイプ(NT)児の自己記録音声における自閉症検出のための機械学習手法について述べる。
まず、抽出音声の特徴を訓練したランダムフォレスト、スペクトルを訓練した第2の畳み込みニューラルネットワーク(CNN)、そして第3の、最先端のトランスフォーマーベースのASRモデルであるwav2vec 2.0の3つの方法を検討する。
論文 参考訳(メタデータ) (2022-01-04T01:31:02Z) - Audio-visual Representation Learning for Anomaly Events Detection in
Crowds [119.72951028190586]
本稿では,音声と視覚信号の同時モデリングにおけるマルチモーダル学習の活用を試みる。
監視シーンにおける合成音声視覚データセットであるSHADEデータセットについて実験を行った。
音声信号の導入は,異常事象の検出性能を効果的に向上し,他の最先端手法よりも優れることがわかった。
論文 参考訳(メタデータ) (2021-10-28T02:42:48Z) - Robust Feature Learning on Long-Duration Sounds for Acoustic Scene
Classification [54.57150493905063]
音響シーン分類(ASC)は、所定の音声信号が記録されるシーンの種類(環境)を特定することを目的としている。
我々は,CNNを訓練するための頑健な特徴学習(RFL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:33:05Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。