論文の概要: A Novel Transfer Learning Approach for Mental Stability Classification from Voice Signal
- arxiv url: http://arxiv.org/abs/2601.16793v1
- Date: Fri, 23 Jan 2026 14:45:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.725739
- Title: A Novel Transfer Learning Approach for Mental Stability Classification from Voice Signal
- Title(参考訳): 音声信号からの精神安定度分類のための新しい伝達学習手法
- Authors: Rafiul Islam, Md. Taimur Ahad,
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は、音声記録から生成された分光画像を分析するために用いられている。
3つのCNNアーキテクチャ、VGG16、InceptionV3、DenseNet121が3つの実験段階にわたって評価された。
DenseNet121の精度は94%、AUCスコアは99%であった。
- 参考スコア(独自算出の注目度): 0.24554686192257422
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study presents a novel transfer learning approach and data augmentation technique for mental stability classification using human voice signals and addresses the challenges associated with limited data availability. Convolutional neural networks (CNNs) have been employed to analyse spectrogram images generated from voice recordings. Three CNN architectures, VGG16, InceptionV3, and DenseNet121, were evaluated across three experimental phases: training on non-augmented data, augmented data, and transfer learning. This proposed transfer learning approach involves pre-training models on the augmented dataset and fine-tuning them on the non-augmented dataset while ensuring strict data separation to prevent data leakage. The results demonstrate significant improvements in classification performance compared to the baseline approach. Among three CNN architectures, DenseNet121 achieved the highest accuracy of 94% and an AUC score of 99% using the proposed transfer learning approach. This finding highlights the effectiveness of combining data augmentation and transfer learning to enhance CNN-based classification of mental stability using voice spectrograms, offering a promising non-invasive tool for mental health diagnostics.
- Abstract(参考訳): 本研究では,人間の音声信号を用いた心的安定度分類のためのトランスファー学習手法とデータ拡張手法を提案する。
畳み込みニューラルネットワーク(CNN)は、音声記録から生成された分光画像を分析するために用いられている。
3つのCNNアーキテクチャ、VGG16、InceptionV3、DenseNet121は、拡張されていないデータのトレーニング、拡張データ、転送学習の3つの実験段階にわたって評価された。
このトランスファーラーニングアプローチでは、データ漏洩を防ぐために厳格なデータ分離を確保しながら、拡張データセット上の事前トレーニングモデルと、拡張データセット上でそれらを微調整する。
その結果, ベースラインアプローチと比較して, 分類性能が著しく向上した。
3つのCNNアーキテクチャの中で、DenseNet121は94%、AUCスコアは99%という高い精度を達成した。
この発見は、音声スペクトログラムを用いたCNNに基づくメンタル安定性の分類を強化するために、データ拡張とトランスファーラーニングを組み合わせる効果を強調し、メンタルヘルス診断のための有望な非侵襲ツールを提供する。
関連論文リスト
- Leveraging Semi-Supervised Learning to Enhance Data Mining for Image Classification under Limited Labeled Data [35.431340001608476]
従来のデータマイニング手法は、大規模で高次元で複雑なデータに直面すると不十分である。
本研究では,ラベルのないデータを利用するアルゴリズムの能力向上を目的とした,半教師付き学習手法を提案する。
具体的には、自己学習法を採用し、画像の特徴抽出と分類のための畳み込みニューラルネットワーク(CNN)と組み合わせる。
論文 参考訳(メタデータ) (2024-11-27T18:59:50Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Few-shot learning for COVID-19 Chest X-Ray Classification with
Imbalanced Data: An Inter vs. Intra Domain Study [49.5374512525016]
医療画像データセットは、コンピュータ支援診断、治療計画、医学研究に使用される訓練モデルに不可欠である。
データ分散のばらつき、データの不足、ジェネリックイメージから事前トレーニングされたモデルを使用する場合の転送学習の問題などである。
本稿では,データ不足と分散不均衡の影響を軽減するために,一連の手法を統合したシームズニューラルネットワークに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T16:59:27Z) - An Explainable Deep Learning-Based Method For Schizophrenia Diagnosis Using Generative Data-Augmentation [0.3222802562733786]
脳波記録を用いた統合失調症の自動診断にディープラーニングを用いた手法を応用した。
このアプローチは、診断の精度を高める強力な手法である生成データ拡張を利用する。
論文 参考訳(メタデータ) (2023-10-25T12:55:16Z) - A Study on the Impact of Data Augmentation for Training Convolutional
Neural Networks in the Presence of Noisy Labels [14.998309259808236]
ラベルノイズは大規模な実世界のデータセットで一般的であり、その存在はディープニューラルネットワークのトレーニングプロセスに悪影響を及ぼす。
我々は、深層ニューラルネットワークをトレーニングするための設計選択として、データ拡張の影響を評価する。
データ拡張の適切な選択は、ラベルノイズに対するモデルロバスト性を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-08-23T20:04:17Z) - Defense against adversarial attacks on deep convolutional neural
networks through nonlocal denoising [1.3484794751207887]
異なる輝度値を持つ非局所復調法は、逆例を生成するために用いられてきた。
摂動下では、この手法はMNISTデータセットの9.3%の絶対精度の向上をもたらした。
我々は,移動学習が逆機械学習に不利であることを示してきた。
論文 参考訳(メタデータ) (2022-06-25T16:11:25Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - CosSGD: Nonlinear Quantization for Communication-efficient Federated
Learning [62.65937719264881]
フェデレーション学習は、これらのクライアントのローカルデータを中央サーバに転送することなく、クライアント間での学習を促進する。
圧縮勾配降下のための非線形量子化を提案し、フェデレーションラーニングで容易に利用することができる。
本システムは,訓練過程の収束と精度を維持しつつ,通信コストを最大3桁まで削減する。
論文 参考訳(メタデータ) (2020-12-15T12:20:28Z) - Rectified Meta-Learning from Noisy Labels for Robust Image-based Plant
Disease Diagnosis [64.82680813427054]
植物病は食料安全保障と作物生産に対する主要な脅威の1つである。
1つの一般的なアプローチは、葉画像分類タスクとしてこの問題を変換し、強力な畳み込みニューラルネットワーク(CNN)によって対処できる。
本稿では,正規化メタ学習モジュールを共通CNNパラダイムに組み込んだ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-17T09:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。