論文の概要: Dynamic Fusion Multimodal Network for SpeechWellness Detection
- arxiv url: http://arxiv.org/abs/2508.18057v2
- Date: Mon, 01 Sep 2025 11:20:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 12:29:36.78144
- Title: Dynamic Fusion Multimodal Network for SpeechWellness Detection
- Title(参考訳): 音声重み検出のための動的融合型マルチモーダルネットワーク
- Authors: Wenqiang Sun, Han Yin, Jisheng Bai, Jianfeng Chen,
- Abstract要約: 自殺は青年期の死因の1つである。
これまでの自殺リスク予測研究は、主に単独でテキスト情報と音響情報の両方に焦点を当ててきた。
音声検出のための動的融合機構に基づく軽量マルチブランチマルチモーダルシステムについて検討する。
- 参考スコア(独自算出の注目度): 7.169178956727836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Suicide is one of the leading causes of death among adolescents. Previous suicide risk prediction studies have primarily focused on either textual or acoustic information in isolation, the integration of multimodal signals, such as speech and text, offers a more comprehensive understanding of an individual's mental state. Motivated by this, and in the context of the 1st SpeechWellness detection challenge, we explore a lightweight multi-branch multimodal system based on a dynamic fusion mechanism for speechwellness detection. To address the limitation of prior approaches that rely on time-domain waveforms for acoustic analysis, our system incorporates both time-domain and time-frequency (TF) domain acoustic features, as well as semantic representations. In addition, we introduce a dynamic fusion block to adaptively integrate information from different modalities. Specifically, it applies learnable weights to each modality during the fusion process, enabling the model to adjust the contribution of each modality. To enhance computational efficiency, we design a lightweight structure by simplifying the original baseline model. Experimental results demonstrate that the proposed system exhibits superior performance compared to the challenge baseline, achieving a 78% reduction in model parameters and a 5% improvement in accuracy.
- Abstract(参考訳): 自殺は青年期の死因の1つである。
以前の自殺リスク予測研究は、主に単独でテキスト情報または音響情報に焦点を合わせており、音声やテキストなどのマルチモーダル信号の統合は、個人の精神状態をより包括的に理解する。
そこで本研究では,第1回音声ウェルネス検出チャレンジにおいて,音声ウェルネス検出のための動的融合機構に基づく,軽量なマルチブランチマルチモーダルシステムについて検討する。
音響解析における時間領域波形に依存した先行手法の制限に対処するため,本システムは時間領域と時間周波数領域の音響特徴と意味表現を取り入れた。
さらに,異なるモードからの情報を適応的に統合する動的融合ブロックを導入する。
具体的には、融合過程中の各モードに学習可能な重みを適用し、モデルが各モードの寄与を調整することができる。
計算効率を向上させるため,元のベースラインモデルを簡単にすることで軽量な構造を設計する。
実験結果から,提案システムは課題ベースラインよりも優れた性能を示し,モデルパラメータの78%削減,精度の5%向上を実現した。
関連論文リスト
- AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Echotune: A Modular Extractor Leveraging the Variable-Length Nature of Speech in ASR Tasks [4.132793413136553]
可変長アテンション機構を備えたピンブルモジュールであるEcho-MSAを紹介する。
提案した設計は,音声の可変長の特徴を捉え,固定長注意の限界に対処する。
論文 参考訳(メタデータ) (2023-09-14T14:51:51Z) - Self-attention fusion for audiovisual emotion recognition with
incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。
本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文 参考訳(メタデータ) (2022-01-26T18:04:29Z) - Multi-Modal Perception Attention Network with Self-Supervised Learning
for Audio-Visual Speaker Tracking [18.225204270240734]
音声と視覚の両方を用いた話者追跡のための新しいマルチモーダル・パーセプション・トラッカー(MPT)を提案する。
MPTは標準データセットと排他データセットでそれぞれ98.6%と78.3%のトラッキング精度を達成した。
論文 参考訳(メタデータ) (2021-12-14T14:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。