論文の概要: Suicide Risk Assessment Using Multimodal Speech Features: A Study on the SW1 Challenge Dataset
- arxiv url: http://arxiv.org/abs/2505.13069v1
- Date: Mon, 19 May 2025 13:04:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.598913
- Title: Suicide Risk Assessment Using Multimodal Speech Features: A Study on the SW1 Challenge Dataset
- Title(参考訳): マルチモーダル音声特徴を用いた自殺リスク評価:SW1チャレンジデータセットの検討
- Authors: Ambre Marie, Ilias Maoudj, Guillaume Dardenne, Gwenolé Quellec,
- Abstract要約: 第1回SpeechWellness Challengeは、青年期における音声による自殺リスク評価の必要性を訴えるものである。
本研究は,WhisperXによる自動書き起こし,中国語RoBERTaによる言語埋め込み,WavLMによる音声埋め込みなど,この課題に対するマルチモーダルなアプローチについて検討する。
- 参考スコア(独自算出の注目度): 0.09677060995695673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The 1st SpeechWellness Challenge conveys the need for speech-based suicide risk assessment in adolescents. This study investigates a multimodal approach for this challenge, integrating automatic transcription with WhisperX, linguistic embeddings from Chinese RoBERTa, and audio embeddings from WavLM. Additionally, handcrafted acoustic features -- including MFCCs, spectral contrast, and pitch-related statistics -- were incorporated. We explored three fusion strategies: early concatenation, modality-specific processing, and weighted attention with mixup regularization. Results show that weighted attention provided the best generalization, achieving 69% accuracy on the development set, though a performance gap between development and test sets highlights generalization challenges. Our findings, strictly tied to the MINI-KID framework, emphasize the importance of refining embedding representations and fusion mechanisms to enhance classification reliability.
- Abstract(参考訳): 第1回SpeechWellness Challengeは、青年期における音声による自殺リスク評価の必要性を訴えるものである。
本研究は,WhisperXによる自動書き起こし,中国語RoBERTaによる言語埋め込み,WavLMによる音声埋め込みなど,この課題に対するマルチモーダルなアプローチについて検討する。
さらに、MFCC、スペクトルコントラスト、ピッチ関連統計などの手作り音響特徴が組み込まれた。
われわれは3つの融合戦略について検討した: 初期連結, モーダリティ特化処理, 混合正規化による重み付け処理。
その結果、重み付けされた注意が最高の一般化をもたらし、開発セットで69%の精度を達成できたが、開発セットとテストセットのパフォーマンスギャップは、一般化の課題を強調している。
本研究は,MINI-KIDフレームワークと密接に結びついており,分類信頼性を高めるため,埋め込み表現と融合機構の精細化の重要性を強調した。
関連論文リスト
- AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - TCAN: Text-oriented Cross Attention Network for Multimodal Sentiment Analysis [26.867610944625337]
言語・視覚・音響モダリティを活用したマルチモーダル感性分析(MSA)の試み
過去の研究は、主に表現学習技術と特徴融合戦略の改善に焦点を当てた。
テキスト指向のクロスアテンションネットワーク(TCAN)を導入し,MSAにおけるテキストモダリティの主要な役割を強調した。
論文 参考訳(メタデータ) (2024-04-06T07:56:09Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。