論文の概要: Infant Cry Detection Using Causal Temporal Representation
- arxiv url: http://arxiv.org/abs/2503.06247v1
- Date: Sat, 08 Mar 2025 15:15:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:46:32.268949
- Title: Infant Cry Detection Using Causal Temporal Representation
- Title(参考訳): Causal Temporal Representation を用いた乳幼児のcry検出
- Authors: Minghao Fu, Danning Li, Aryan Gadhiya, Benjamin Lambright, Mohamed Alowais, Mohab Bahnassy, Saad El Dine Elletter, Hawau Olamide Toyin, Haiyan Jiang, Kun Zhang, Hanan Aldarmaki,
- Abstract要約: 本研究は乳児の涙の診断に2つの貢献をおこなった。
ひとつはCryセグメンテーションのための注釈付きデータセットで、教師付きモデルで最先端のパフォーマンスを実現することができる。
- 参考スコア(独自算出の注目度): 6.240468701036028
- License:
- Abstract: This paper addresses a major challenge in acoustic event detection, in particular infant cry detection in the presence of other sounds and background noises: the lack of precise annotated data. We present two contributions for supervised and unsupervised infant cry detection. The first is an annotated dataset for cry segmentation, which enables supervised models to achieve state-of-the-art performance. Additionally, we propose a novel unsupervised method, Causal Representation Spare Transition Clustering (CRSTC), based on causal temporal representation, which helps address the issue of data scarcity more generally. By integrating the detected cry segments, we significantly improve the performance of downstream infant cry classification, highlighting the potential of this approach for infant care applications.
- Abstract(参考訳): 本稿では,特に乳幼児の泣き声検出において,他の音や背景雑音の存在下での大きな課題である,正確な注釈データがないことについて論じる。
本研究は乳児の涙の診断に2つの貢献をおこなった。
ひとつはCryセグメンテーションのための注釈付きデータセットで、教師付きモデルで最先端のパフォーマンスを実現することができる。
さらに、因果時間表現に基づく新しい教師なし手法CRSTC(Causal Representation Spare Transition Clustering)を提案する。
検出した涙節を統合することにより,下流の乳幼児の涙分類の性能を著しく改善し,乳幼児ケアへの応用の可能性を強調した。
関連論文リスト
- Robust Tiny Object Detection in Aerial Images amidst Label Noise [50.257696872021164]
本研究は,ノイズラベル管理下での微小物体検出の問題に対処する。
本稿では,DN-TOD(Denoising Tiny Object Detector)を提案する。
本手法は,1段と2段の両方のオブジェクト検出パイプラインにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-01-16T02:14:33Z) - Detection of Children Abuse by Voice and Audio Classification by
Short-Time Fourier Transform Machine Learning implemented on Nvidia Edge GPU
device [0.0]
この実験は、機械学習を使って子供の声を分類し、認識する。
子供が泣き叫んだり叫んだりすると、直ちに関連する職員に警告が送られる。
論文 参考訳(メタデータ) (2023-07-27T16:48:19Z) - Self-supervised learning for infant cry analysis [2.7973623341455602]
本研究は,1000人以上の新生児の臨床徴候を含む泣き声のデータベースを解析するための自己教師付き学習(SSL)について検討する。
具体的には, 痛み, 飢え, 不快感などの涙の引き金の同定とともに, 涙による神経障害の検出を標的とした。
SSLコントラスト損失(SimCLR)によるプレトレーニングは,神経損傷と涙の引き金の両方に対する教師付きプレトレーニングよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-05-02T16:27:18Z) - Weakly Supervised Detection of Baby Cry [14.778851751964936]
本稿では,乳児の泣き声を検出するために,弱教師付き異常検出法を提案する。
この弱い監視では、オーディオファイルに泣き声がある場合にのみ弱いアノテーションが必要である。
論文 参考訳(メタデータ) (2023-04-19T22:38:45Z) - Unsupervised Video Anomaly Detection for Stereotypical Behaviours in
Autism [20.09315869162054]
本稿では,コンピュータビジョン技術を用いてステレオタイプ行動を自動的に検出することに焦点を当てる。
本研究では、人間のポーズの時間的軌跡と人間の行動の反復パターンに基づいて、ステレオタイプ行動検出のためのデュアルストリーム深度モデル(DS-SBD)を提案する。
論文 参考訳(メタデータ) (2023-02-27T13:24:08Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Automated Classification of General Movements in Infants Using a
Two-stream Spatiotemporal Fusion Network [5.541644538483947]
幼児の全身運動(GM)の評価は神経発達障害の早期診断に有用である。
近年、ビデオベースのGM分類が注目されているが、これは無関係な情報の影響を強く受けている。
不要な背景情報を除去する前処理ネットワークからなる自動GM分類法を提案する。
論文 参考訳(メタデータ) (2022-07-04T05:21:09Z) - SegTAD: Precise Temporal Action Detection via Semantic Segmentation [65.01826091117746]
意味的セグメンテーションの新しい視点で時間的行動検出のタスクを定式化する。
TADの1次元特性により、粗粒度検出アノテーションを細粒度セマンティックセマンティックアノテーションに無償で変換できる。
1Dセマンティックセグメンテーションネットワーク(1D-SSN)と提案検出ネットワーク(PDN)からなるエンドツーエンドフレームワークSegTADを提案する。
論文 参考訳(メタデータ) (2022-03-03T06:52:13Z) - Audio-visual Representation Learning for Anomaly Events Detection in
Crowds [119.72951028190586]
本稿では,音声と視覚信号の同時モデリングにおけるマルチモーダル学習の活用を試みる。
監視シーンにおける合成音声視覚データセットであるSHADEデータセットについて実験を行った。
音声信号の導入は,異常事象の検出性能を効果的に向上し,他の最先端手法よりも優れることがわかった。
論文 参考訳(メタデータ) (2021-10-28T02:42:48Z) - Reference-based Defect Detection Network [57.89399576743665]
最初の問題はテクスチャシフトであり、これはトレーニングされた欠陥検出モデルが目に見えないテクスチャの影響を受けやすいことを意味する。
第2の問題は部分的な視覚的混乱であり、部分的な欠陥ボックスが完全なボックスと視覚的に類似していることを示している。
本稿では,これら2つの問題に対処する参照型欠陥検出ネットワーク(RDDN)を提案する。
論文 参考訳(メタデータ) (2021-08-10T05:44:23Z) - WSSOD: A New Pipeline for Weakly- and Semi-Supervised Object Detection [75.80075054706079]
弱機能および半教師付きオブジェクト検出フレームワーク(WSSOD)を提案する。
エージェント検出器は、まず関節データセット上でトレーニングされ、弱注釈画像上で擬似境界ボックスを予測するために使用される。
提案フレームワークはPASCAL-VOC と MSCOCO のベンチマークで顕著な性能を示し,完全教師付き環境で得られたものと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-05-21T11:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。