論文の概要: InfantCryNet: A Data-driven Framework for Intelligent Analysis of Infant Cries
- arxiv url: http://arxiv.org/abs/2409.19689v1
- Date: Sun, 29 Sep 2024 12:35:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:07:31.619051
- Title: InfantCryNet: A Data-driven Framework for Intelligent Analysis of Infant Cries
- Title(参考訳): InfantCryNet: 幼児の泣き声をインテリジェントに分析するためのデータ駆動フレームワーク
- Authors: Mengze Hong, Chen Jason Zhang, Lingxiao Yang, Yuanfeng Song, Di Jiang,
- Abstract要約: 本稿では,これらのタスクを実現するための新しいデータ駆動フレームワーク"InfantCryNet"を提案する。
事前学習された音声モデルを用いて、事前知識をモデルに組み込む。
実生活データセットの実験は、提案フレームワークの優れた性能を示す。
- 参考スコア(独自算出の注目度): 24.06154195051215
- License:
- Abstract: Understanding the meaning of infant cries is a significant challenge for young parents in caring for their newborns. The presence of background noise and the lack of labeled data present practical challenges in developing systems that can detect crying and analyze its underlying reasons. In this paper, we present a novel data-driven framework, "InfantCryNet," for accomplishing these tasks. To address the issue of data scarcity, we employ pre-trained audio models to incorporate prior knowledge into our model. We propose the use of statistical pooling and multi-head attention pooling techniques to extract features more effectively. Additionally, knowledge distillation and model quantization are applied to enhance model efficiency and reduce the model size, better supporting industrial deployment in mobile devices. Experiments on real-life datasets demonstrate the superior performance of the proposed framework, outperforming state-of-the-art baselines by 4.4% in classification accuracy. The model compression effectively reduces the model size by 7% without compromising performance and by up to 28% with only an 8% decrease in accuracy, offering practical insights for model selection and system design.
- Abstract(参考訳): 幼児の泣き声の意味を理解することは、新生児の世話をする若い親にとって重要な課題である。
背景雑音の存在とラベル付きデータの欠如は、泣き声を検知し、その根本原因を分析するシステム開発における実践的な課題である。
本稿では,これらのタスクを実現するための新しいデータ駆動フレームワーク"InfantCryNet"を提案する。
データ不足の問題に対処するために、事前学習された音声モデルを用いて、事前知識をモデルに組み込む。
本稿では,より効率的に特徴を抽出するために,統計的プーリングとマルチヘッドアテンションプーリング手法を提案する。
さらに、知識蒸留とモデル量子化を適用して、モデル効率を高め、モデルサイズを小さくし、モバイルデバイスの産業展開をより良く支援する。
実生活データセットの実験では、提案フレームワークの優れた性能を示し、分類精度が4.4%向上した。
モデル圧縮は、性能を損なうことなくモデルサイズを7%、精度を8%低下させるだけで最大28%削減し、モデル選択とシステム設計の実践的な洞察を提供する。
関連論文リスト
- Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - A Training Rate and Survival Heuristic for Inference and Robustness Evaluation (TRASHFIRE) [1.622320874892682]
この研究は、特定のモデルハイパーパラメータが、相手の存在下でモデルの性能にどのように影響するかを理解し予測する問題に対処する。
提案手法では、サバイバルモデル、最悪の例、コスト認識分析を用いて、特定のモデル変更を正確かつ正確に拒否する。
提案手法を用いて、最も単純なホワイトボックス攻撃に対して、ResNetは絶望的に反対であることを示す。
論文 参考訳(メタデータ) (2024-01-24T19:12:37Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Progressive reduced order modeling: empowering data-driven modeling with
selective knowledge transfer [0.0]
本稿では,データ・ラーメンの最小化とデータ・ドリブン・モデリングの実践性の向上を図った,段階的縮小順序モデリングフレームワークを提案する。
提案手法は,未使用情報を無視しながら,人間が有意義な知識を選択的に活用する方法と同様,事前訓練されたモデルからの知識をゲートを通じて選択的に伝達する。
我々は、多孔質媒体の輸送、重力駆動流れ、超弾性材料における有限変形など、いくつかのケースで我々の枠組みを検証した。
論文 参考訳(メタデータ) (2023-10-04T23:50:14Z) - Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。
モデル圧縮は視覚的プロンプトベース転送の性能に有害である。
しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - CUEING: a lightweight model to Capture hUman attEntion In driviNG [6.310770791023399]
本稿では,既存の視線データセットからノイズを除去する適応的浄化手法と,頑健で軽量な自己注意型視線予測モデルを提案する。
提案手法は, モデル一般化可能性と性能を最大12.13%向上させるだけでなく, 最先端技術と比較して, モデル複雑性を最大98.2%低減させる。
論文 参考訳(メタデータ) (2023-05-25T04:44:50Z) - Knowledge distillation: A good teacher is patient and consistent [71.14922743774864]
最先端のパフォーマンスを実現する大規模モデルと、実用的な用途で手頃な価格のモデルとの間には、コンピュータビジョンの相違が増えている。
蒸留の有効性に大きな影響を及ぼす可能性のある,特定の暗黙的な設計選択を同定する。
ImageNetの最先端ResNet-50モデルが82.8%の精度で実現されている。
論文 参考訳(メタデータ) (2021-06-09T17:20:40Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。