論文の概要: Domain-Agnostic Causal-Aware Audio Transformer for Infant Cry Classification
- arxiv url: http://arxiv.org/abs/2512.16271v1
- Date: Thu, 18 Dec 2025 07:40:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.968993
- Title: Domain-Agnostic Causal-Aware Audio Transformer for Infant Cry Classification
- Title(参考訳): 乳幼児のCry分類のためのドメイン非依存因果対応オーディオ変換器
- Authors: Geofrey Owino, Bernard Shibwabo Kasamani, Ahmed M. Abdelmoniem, Edem Wornyo,
- Abstract要約: 乳幼児の結節分類のためのドメイン非依存型因果型階層型音声変換器DACH-TICを提案する。
このモデルは、統合されたフレームワーク内での因果的注意、階層的表現学習、マルチタスクの監督、および敵対的ドメインの一般化を統合する。
このモデルは、ドメインパフォーマンスのギャップが2.4パーセントしかなく、目に見えない音響環境に効果的に一般化する。
- 参考スコア(独自算出の注目度): 5.764453198495989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate and interpretable classification of infant cry paralinguistics is essential for early detection of neonatal distress and clinical decision support. However, many existing deep learning methods rely on correlation-driven acoustic representations, which makes them vulnerable to noise, spurious cues, and domain shifts across recording environments. We propose DACH-TIC, a Domain-Agnostic Causal-Aware Hierarchical Audio Transformer for robust infant cry classification. The model integrates causal attention, hierarchical representation learning, multi-task supervision, and adversarial domain generalization within a unified framework. DACH-TIC employs a structured transformer backbone with local token-level and global semantic encoders, augmented by causal attention masking and controlled perturbation training to approximate counterfactual acoustic variations. A domain-adversarial objective promotes environment-invariant representations, while multi-task learning jointly optimizes cry type recognition, distress intensity estimation, and causal relevance prediction. The model is evaluated on the Baby Chillanto and Donate-a-Cry datasets, with ESC-50 environmental noise overlays for domain augmentation. Experimental results show that DACH-TIC outperforms state-of-the-art baselines, including HTS-AT and SE-ResNet Transformer, achieving improvements of 2.6 percent in accuracy and 2.2 points in macro-F1 score, alongside enhanced causal fidelity. The model generalizes effectively to unseen acoustic environments, with a domain performance gap of only 2.4 percent, demonstrating its suitability for real-world neonatal acoustic monitoring systems.
- Abstract(参考訳): 乳幼児の喉頭パラ言語学の正確な分類は、新生児期難病の早期発見と臨床診断支援に不可欠である。
しかし、多くの既存のディープラーニング手法は相関駆動音響表現に依存しており、ノイズ、刺激的な手がかり、記録環境間のドメインシフトに弱い。
乳幼児の結節分類のためのドメイン非依存型因果型階層型音声変換器DACH-TICを提案する。
このモデルは、統合されたフレームワーク内での因果的注意、階層的表現学習、マルチタスクの監督、および敵対的ドメインの一般化を統合する。
DACH-TICは、局所トークンレベルとグローバルセマンティックエンコーダを備えた構造化トランスフォーマーバックボーンを使用し、因果アテンションマスキングと制御摂動トレーニングにより、対物音響変動を近似する。
ドメイン・アドバイザリの目的は環境不変表現を促進する一方で,マルチタスク学習は低温型認識,耐震強度推定,因果関係予測を共同で最適化する。
このモデルはBaby ChillantoとDonate-a-Cryのデータセットで評価され、ESC-50環境騒音オーバーレイにより拡張された。
実験の結果、DACH-TICはHTS-ATやSE-ResNet Transformerなど最先端のベースラインより優れており、2.6%の精度と2.2ポイントのマクロF1スコアを向上した。
このモデルは、未確認の音響環境を効果的に一般化し、ドメインパフォーマンスのギャップは2.4パーセントに過ぎず、実際の新生児の音響モニタリングシステムに適合することを示す。
関連論文リスト
- Ivan-ISTD: Rethinking Cross-domain Heteroscedastic Noise Perturbations in Infrared Small Target Detection [53.689841037081834]
Ivan-ISTD は ISTD におけるクロスドメインシフトと異方性雑音摂動の2つの課題に対処するように設計されている。
Ivan-ISTDはクロスドメインシナリオにおいて優れた堅牢性を示している。
論文 参考訳(メタデータ) (2025-10-14T07:48:31Z) - Ecologically Valid Benchmarking and Adaptive Attention: Scalable Marine Bioacoustic Monitoring [2.558238597112103]
GetNetUPAMは、現実的な可変性の下で安定性をモデル化するためのネストされたクロスバリデーションフレームワークである。
データは異なるサイト年区分に分割され、記録を保存し、各バリデーションフォールドがユニークな環境サブセットを反映することを保証する。
ARPA-Nは、DenseNetベースラインに対する平均精度が14.4%向上し、すべてのメトリクスで対数2スケールのオーダー・オブ・マグニチュードが減少する。
論文 参考訳(メタデータ) (2025-09-04T22:03:05Z) - ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signals [8.411477071838592]
本稿では,周波数位置埋め込みと高度なバンド分割アーキテクチャを組み合わせた新しい基礎モデルECHOを提案する。
本手法は,様々な種類の機械信号データセットを用いて評価する。
論文 参考訳(メタデータ) (2025-08-20T13:10:44Z) - Wavelet-Guided Dual-Frequency Encoding for Remote Sensing Change Detection [67.84730634802204]
リモートセンシング画像の変化検出は,自然災害監視,都市拡張追跡,インフラ管理など,さまざまな工学的応用において重要な役割を担っている。
既存のほとんどの手法は空間領域モデリングに依存しており、特徴表現の限られた多様性は微妙な変化領域の検出を妨げる。
本研究では、特にウェーブレット領域における周波数領域の特徴モデリングが周波数成分の微細な違いを増幅し、空間領域において捉えにくいエッジ変化の知覚を高めることを観察する。
論文 参考訳(メタデータ) (2025-08-07T11:14:16Z) - ASDA: Audio Spectrogram Differential Attention Mechanism for Self-Supervised Representation Learning [57.67273340380651]
実験の結果,ASDAモデルは複数のベンチマークでSOTA(State-of-the-art)性能を達成できた。
これらの結果は、ASDAの音声タスクにおける有効性を強調し、より広範なアプリケーションへの道を開いた。
論文 参考訳(メタデータ) (2025-07-03T14:29:43Z) - Adaptive Control Attention Network for Underwater Acoustic Localization and Domain Adaptation [8.017203108408973]
海洋における音源の局所化は、環境の複雑でダイナミックな性質のために難しい課題である。
本研究では,移動音源と受信機の距離を正確に予測するマルチブランチネットワークアーキテクチャを提案する。
提案手法は,SOTA(State-of-the-art)アプローチに類似した設定で優れる。
論文 参考訳(メタデータ) (2025-06-20T18:13:30Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Decoupled Doubly Contrastive Learning for Cross Domain Facial Action Unit Detection [66.80386429324196]
そこで本稿では,AU 表現を2つに分離した2つのコントラスト適応 (D$2$CA) 手法を提案する。
D$2$CAは、合成顔の質を評価することにより、AUとドメイン因子を乱すように訓練される。
最先端のクロスドメインAU検出アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-03-12T00:42:17Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - Glottal source estimation robustness: A comparison of sensitivity of
voice source estimation techniques [11.97036509133719]
本稿では,音声波形から直接音源を推定する問題に対処する。
ADR(Anticausality Dominated Regions)に基づく新しい原理は、スロットル開相を推定するために用いられる。
論文 参考訳(メタデータ) (2020-05-24T08:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。