論文の概要: Privacy-Enhancing Infant Cry Classification with Federated Transformers and Denoising Regularization
- arxiv url: http://arxiv.org/abs/2512.13880v1
- Date: Mon, 15 Dec 2025 20:33:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.482924
- Title: Privacy-Enhancing Infant Cry Classification with Federated Transformers and Denoising Regularization
- Title(参考訳): フェデレート変換器による乳幼児のプライバシ向上と正規化
- Authors: Geofrey Owino, Bernard Shibwabo,
- Abstract要約: 本稿では,自動エンコーダ,畳み込みトークン化器,トランスフォーマーエンコーダを統合した幼児の涙分析パイプラインを提案する。
このシステムは、オンデバイス・デノケーション、適応セグメンテーション、ポストホックキャリブレーション、エネルギーベースのアウト・オブ・ディストリビューション(OOD)の停止を実行する。
Baby ChillantoとDonate-a-Cryのデータセットを使用して、このモデルはマクロF1スコア0.938、AUC0.962、予測エラー(ECE)0.032を達成し、ラウンド毎のアップロード数を約36MBから42MBから3.3MBに削減した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Infant cry classification can aid early assessment of infant needs. However, deployment of such solutions is limited by privacy concerns around audio data, sensitivity to background noise, and domain shift across recording environments. We present an end-to-end infant cry analysis pipeline that integrates a denoising autoencoder (DAE), a convolutional tokenizer, and a Transformer encoder trained using communication-efficient federated learning (FL). The system performs on-device denoising, adaptive segmentation, post hoc calibration, and energy-based out-of-distribution (OOD) abstention. Federated training employs a regularized control variate update with 8-bit adapter deltas under secure aggregation. Using the Baby Chillanto and Donate-a-Cry datasets with ESC-50 noise overlays, the model achieves a macro F1 score of 0.938, an AUC of 0.962, and an Expected Calibration Error (ECE) of 0.032, while reducing per-round client upload from approximately 36 to 42 MB to 3.3 MB. Real-time edge inference on an NVIDIA Jetson Nano (4 GB, TensorRT FP16) achieves 96 ms per one-second spectrogram frame. These results demonstrate a practical path toward privacy-preserving, noise-robust, and communication-efficient infant cry classification suitable for federated deployment.
- Abstract(参考訳): 乳幼児の涙の分類は乳幼児のニーズの早期評価に役立つ。
しかし、そのようなソリューションの展開は、オーディオデータに関するプライバシー上の懸念、バックグラウンドノイズに対する感受性、記録環境間のドメインシフトによって制限される。
本稿では,DAE(denoising autoencoder),畳み込みトークン化器(convolutional tokenizer),通信効率のよいフェデレーション学習(FL)を用いたトランスフォーマーエンコーダ(Transformer encoder)を統合した幼児の涙分析パイプラインを提案する。
このシステムは、オンデバイス・デノベーション、適応セグメンテーション、ポストホックキャリブレーション、エネルギーベースのアウト・オブ・ディストリビューション(OOD)の停止を実行する。
フェデレートされたトレーニングでは、セキュアなアグリゲーションの下で8ビットアダプタデルタを備えた正規化された制御変数更新を採用している。
ESC-50ノイズオーバーレイを備えたBaby ChillantoとDonate-a-Cryデータセットを使用して、このモデルはマクロF1スコア0.938、AUC0.962、期待キャリブレーションエラー(ECE)0.032を達成し、全体のクライアントアップロード数を約36MBから42MBから3.3MBに削減した。
NVIDIA Jetson Nano(4GB、TensorRT FP16)上のリアルタイムエッジ推論は、1秒のスペクトログラムフレームあたり96msを達成する。
これらの結果から, プライバシ保護, ノイズロバスト, コミュニケーション効率のよい乳幼児の涙分類に向けての実践的な道筋が示された。
関連論文リスト
- MBFL-DKMR: Improving Mutation-based Fault Localization through Denoising-based Kill Matrix Refinement [21.09532467931481]
本稿では,MBFLにおけるミュータント-テスト関係を捉えるコアデータ構造であるキルマトリクスを改良する新しい手法を提案する。
DKMRは、ハイブリッド行列構築による信号強調と、雑音抑制のための周波数領域フィルタリングによる信号復調の2つの重要な段階を用いる。
Defects4J v2.0.0の評価は、MBFL-DKMRがノイズを効果的に軽減し、最先端のMBFL技術より優れていることを示す。
論文 参考訳(メタデータ) (2025-11-28T06:48:00Z) - MeanFlow Transformers with Representation Autoencoders [71.45823902973349]
MeanFlow(MF)は、ノイズからデータへのジャンプを直接学習することで、効率的な数ステップ生成を可能にする拡散動機付き生成モデルである。
我々は、表現オートエンコーダ(RAE)の潜在空間におけるMFの効率的なトレーニングとサンプリング手法を開発する。
1ステップのFIDが2.03であり,バニラMFの3.43を上回っ,GFLOPSのサンプリングを38%削減し,ImageNet 256のトレーニングコストを83%削減した。
論文 参考訳(メタデータ) (2025-11-17T06:17:08Z) - TPA: Temporal Prompt Alignment for Fetal Congenital Heart Defect Classification [2.3974223785103166]
超音波ビデオにおける先天性心不全(CHD)の検出は、画像ノイズとプローブ位置決めのばらつきによって妨げられる。
本稿では,基礎画像テキストモデルとプロンプト認識型コントラスト学習を利用したテンポラル・プロンプトアライメント(TPA)を提案する。
TPAは、画像エンコーダを使用してビデオサブクリップの各フレームから特徴を抽出し、訓練可能な時間抽出器でそれらを集約し、ビデオ表現をクラス固有のテキストプロンプトと整合させる。
論文 参考訳(メタデータ) (2025-08-21T06:36:47Z) - Unsupervised CP-UNet Framework for Denoising DAS Data with Decay Noise [13.466125373185399]
分散音響センサ(DAS)技術は光ファイバーケーブルを利用して音響信号を検出する。
DASは、ジオフォンよりも低い信号対雑音比(S/N)を示す。
これにより、S/Nの低減は、反転と解釈を含むデータ解析に悪影響を及ぼす。
論文 参考訳(メタデータ) (2025-02-19T03:09:49Z) - Data-Free Dynamic Compression of CNNs for Tractable Efficiency [46.498278084317704]
構造化プルーニング手法は, 精度が大幅に低下することなく浮動小数点演算を低下させる可能性を示唆している。
HASTE(Hashing for Tractable Efficiency)は,データフリーでプラグイン・アンド・プレイのコンボリューションモジュールで,トレーニングや微調整なしにネットワークのテスト時間推論コストを瞬時に低減する。
CIFAR-10とImageNetでは46.72%のFLOPを1.25%の精度で削減した。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - Amplitude-Varying Perturbation for Balancing Privacy and Utility in
Federated Learning [86.08285033925597]
本稿では,フェデレート学習のプライバシを保護するため,時変雑音振幅を持つ新しいDP摂動機構を提案する。
我々は、FLの過度な摂動ノイズによる早期収束を防止するために、シリーズのオンラインリファインメントを導出した。
新しいDP機構のプライバシ保存FLの収束と精度への寄与は、持続的な雑音振幅を持つ最先端のガウスノイズ機構と比較して相関する。
論文 参考訳(メタデータ) (2023-03-07T22:52:40Z) - FedCorr: Multi-Stage Federated Learning for Label Noise Correction [80.9366438220228]
Federated Learning(FL)は、クライアントがグローバルモデルの共同トレーニングを可能にする、プライバシ保護の分散学習パラダイムである。
FLにおける異種ラベルノイズに対処する汎用多段階フレームワークであるtextttFedCorr$を提案する。
CIFAR-10/100でフェデレートされた合成ラベルノイズと実世界のノイズデータセットであるCloting1Mで実施された実験は、textttFedCorr$がラベルノイズに対して堅牢であることを実証した。
論文 参考訳(メタデータ) (2022-04-10T12:51:18Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。