論文の概要: RBA-FE: A Robust Brain-Inspired Audio Feature Extractor for Depression Diagnosis
- arxiv url: http://arxiv.org/abs/2506.07118v1
- Date: Sun, 08 Jun 2025 13:00:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.677408
- Title: RBA-FE: A Robust Brain-Inspired Audio Feature Extractor for Depression Diagnosis
- Title(参考訳): RBA-FE: 抑うつ診断のためのロバスト脳誘発オーディオ機能エクストラクタ
- Authors: Yu-Xuan Wu, Ziyan Huang, Bin Hu, Zhi-Hong Guan,
- Abstract要約: 本稿では,脳にインスパイアされた音声特徴抽出器(RBA-FE)を改良した階層型ネットワークアーキテクチャを用いて,抑うつ診断のためのモデルを提案する。
RBA-FEは、ノイズを調整するために、生音声から抽出した6つの音響特性を活用し、空間特性と時間依存性の両方をキャプチャする。
ノイズ問題に対処するため,本モデルは適応速度スムーズなインテリジェンス・アンド・ファイア (ARSLIF) と呼ばれる改良されたスパイクニューロンモデルを組み込んだ。
- 参考スコア(独自算出の注目度): 6.6826445546254964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article proposes a robust brain-inspired audio feature extractor (RBA-FE) model for depression diagnosis, using an improved hierarchical network architecture. Most deep learning models achieve state-of-the-art performance for image-based diagnostic tasks, ignoring the counterpart audio features. In order to tailor the noise challenge, RBA-FE leverages six acoustic features extracted from the raw audio, capturing both spatial characteristics and temporal dependencies. This hybrid attribute helps alleviate the precision limitation in audio feature extraction within other learning models like deep residual shrinkage networks. To deal with the noise issues, our model incorporates an improved spiking neuron model, called adaptive rate smooth leaky integrate-and-fire (ARSLIF). The ARSLIF model emulates the mechanism of ``retuning of cellular signal selectivity" in the brain attention systems, which enhances the model robustness against environmental noises in audio data. Experimental results demonstrate that RBA-FE achieves state-of-the-art accuracy on the MODMA dataset, respectively with 0.8750, 0.8974, 0.8750 and 0.8750 in precision, accuracy, recall and F1 score. Extensive experiments on the AVEC2014 and DAIC-WOZ datasets both show enhancements in noise robustness. It is further indicated by comparison that the ARSLIF neuron model suggest the abnormal firing pattern within the feature extraction on depressive audio data, offering brain-inspired interpretability.
- Abstract(参考訳): 本稿では,脳にインスパイアされた音声特徴抽出器(RBA-FE)を改良した階層型ネットワークアーキテクチャを用いて,抑うつ診断のためのモデルを提案する。
ほとんどのディープラーニングモデルは、画像ベースの診断タスクの最先端のパフォーマンスを達成し、対応するオーディオ機能を無視します。
RBA-FEは、ノイズを調整するために、生音声から抽出した6つの音響特性を活用し、空間特性と時間依存性の両方をキャプチャする。
このハイブリッド属性は、深い残留収縮ネットワークのような他の学習モデルにおける音声特徴抽出の精度の制限を軽減するのに役立つ。
ノイズ問題に対処するため,我々は適応速度スムーズなインテリジェンス・アンド・ファイア (ARSLIF) と呼ばれる改良されたスパイクニューロンモデルを組み込んだ。
ARSLIFモデルは、脳の注意システムにおける「細胞信号選択性の調整」のメカニズムをエミュレートし、オーディオデータにおける環境騒音に対するモデルロバスト性を高める。
実験結果から, RBA-FEはMODMAデータセット上で, 0.8750, 0.8974, 0.8750, 0.8750の精度, 精度, リコール, F1スコアでそれぞれ最先端の精度を達成することが示された。
AVEC2014とDAIC-WOZデータセットの大規模な実験はどちらも、ノイズの堅牢性の向上を示している。
さらに、ARSLIFニューロンモデルでは、抑うつ性音声データから特徴抽出の異常な発火パターンが示唆され、脳にインスパイアされた解釈が可能であることが示唆された。
関連論文リスト
- $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - A Hybrid Framework for Statistical Feature Selection and Image-Based Noise-Defect Detection [55.2480439325792]
本稿では,統計的特徴選択と分類技術を統合し,欠陥検出精度を向上させるハイブリッドフレームワークを提案する。
工業画像から抽出した55個の特徴を統計的手法を用いて解析した。
これらの手法をフレキシブルな機械学習アプリケーションに統合することにより、検出精度を改善し、偽陽性や誤分類を減らす。
論文 参考訳(メタデータ) (2024-12-11T22:12:21Z) - STANet: A Novel Spatio-Temporal Aggregation Network for Depression Classification with Small and Unbalanced FMRI Data [12.344849949026989]
時間的特徴と空間的特徴の両方を捉えるために,CNNとRNNを統合してうつ病を診断するための時空間アグリゲーションネットワーク(STANet)を提案する。
実験の結果、STANetは82.38%の精度と90.72%のAUCでうつ病診断性能に優れていた。
論文 参考訳(メタデータ) (2024-07-31T04:06:47Z) - A multi-artifact EEG denoising by frequency-based deep learning [5.231056284485742]
我々は周波数領域で動作する新しい脳波復調モデルを開発し、ノイズスペクトルの特徴に関する事前知識を活用している。
EEGdenoiseNetデータセットの性能評価は、提案モデルが時間およびスペクトルの指標に応じて最適な結果を得ることを示す。
論文 参考訳(メタデータ) (2023-10-26T12:01:47Z) - Realistic Noise Synthesis with Diffusion Models [44.404059914652194]
ディープラーニングモデルには、大規模な実世界のトレーニングデータが必要です。
本稿では,これらの課題に対処するために拡散モデルを用いた新しい実音合成拡散器(RNSD)法を提案する。
論文 参考訳(メタデータ) (2023-05-23T12:56:01Z) - Brain Imaging-to-Graph Generation using Adversarial Hierarchical Diffusion Models for MCI Causality Analysis [44.45598796591008]
機能的磁気共鳴画像(fMRI)を軽度認知障害解析のための効果的な接続性にマッピングするために,脳画像から画像へのBIGG(Brain Imaging-to-graph generation)フレームワークを提案する。
発電機の階層変換器は、複数のスケールでノイズを推定するように設計されている。
ADNIデータセットの評価は,提案モデルの有効性と有効性を示す。
論文 参考訳(メタデータ) (2023-05-18T06:54:56Z) - The role of noise in denoising models for anomaly detection in medical
images [62.0532151156057]
病理脳病変は脳画像に多彩な外観を示す。
正規データのみを用いた教師なし異常検出手法が提案されている。
空間分解能の最適化と雑音の大きさの最適化により,異なるモデル学習体制の性能が向上することを示す。
論文 参考訳(メタデータ) (2023-01-19T21:39:38Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。