論文の概要: Semi-Supervised Diseased Detection from Speech Dialogues with Multi-Level Data Modeling
- arxiv url: http://arxiv.org/abs/2601.04744v1
- Date: Thu, 08 Jan 2026 09:10:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.127654
- Title: Semi-Supervised Diseased Detection from Speech Dialogues with Multi-Level Data Modeling
- Title(参考訳): マルチレベルデータモデリングによる音声対話からの半教師付き病的検出
- Authors: Xingyuan Li, Mengyue Wu,
- Abstract要約: 本稿では,音声から医療状況を検出するための新しい枠組みを提案する。
エンドツーエンドアプローチは,多粒度特徴を動的に集約し,高品質な擬似ラベルを生成する。
この研究は、医学的音声分析における弱い極端の監督から学ぶための原則的なアプローチを提供する。
- 参考スコア(独自算出の注目度): 27.224093715611534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting medical conditions from speech acoustics is fundamentally a weakly-supervised learning problem: a single, often noisy, session-level label must be linked to nuanced patterns within a long, complex audio recording. This task is further hampered by severe data scarcity and the subjective nature of clinical annotations. While semi-supervised learning (SSL) offers a viable path to leverage unlabeled data, existing audio methods often fail to address the core challenge that pathological traits are not uniformly expressed in a patient's speech. We propose a novel, audio-only SSL framework that explicitly models this hierarchy by jointly learning from frame-level, segment-level, and session-level representations within unsegmented clinical dialogues. Our end-to-end approach dynamically aggregates these multi-granularity features and generates high-quality pseudo-labels to efficiently utilize unlabeled data. Extensive experiments show the framework is model-agnostic, robust across languages and conditions, and highly data-efficient-achieving, for instance, 90\% of fully-supervised performance using only 11 labeled samples. This work provides a principled approach to learning from weak, far-end supervision in medical speech analysis.
- Abstract(参考訳): 音声音響から医療状況を検出することは、基本的には弱い教師付き学習問題である。
この課題は、重度のデータ不足と臨床アノテーションの主観的性質によってさらに妨げられている。
半教師付き学習(SSL)は、ラベルのないデータを活用するための実行可能なパスを提供するが、既存のオーディオ手法は、患者のスピーチで病的特徴が一様に表現されないという課題に対処できないことが多い。
本稿では, フレームレベル, セグメントレベル, セッションレベルから, 未分類の臨床対話内での表現を共同学習することにより, この階層を明示的にモデル化する, 音声のみのSSLフレームワークを提案する。
我々のエンドツーエンドアプローチは、これらの多粒度特徴を動的に集約し、高品質な擬似ラベルを生成し、ラベルなしデータを効率的に活用する。
大規模な実験によると、このフレームワークは言語や条件にまたがるモデルに依存しない、堅牢で、データ効率の高いパフォーマンスを実現している。
この研究は、医学的音声分析における弱い極端の監督から学ぶための原則的なアプローチを提供する。
関連論文リスト
- Hierarchical Self-Supervised Representation Learning for Depression Detection from Speech [51.14752758616364]
音声による抑うつ検出 (SDD) は、従来の臨床評価に代わる有望で非侵襲的な代替手段である。
HAREN-CTCは,マルチタスク学習フレームワーク内でのクロスアテンションを用いて,多層SSL機能を統合した新しいアーキテクチャである。
このモデルはDAIC-WOZで0.81、MODMAで0.82の最先端マクロF1スコアを達成し、両方の評価シナリオで先行手法より優れている。
論文 参考訳(メタデータ) (2025-10-05T09:32:12Z) - An Effective Strategy for Modeling Score Ordinality and Non-uniform Intervals in Automated Speaking Assessment [14.003981407136072]
自己教師付き学習表現は、特徴キュレーションの前提となる仮定なしに、非ネイティブ音声における豊かな音響的および言語的パターンをキャプチャする。
ほとんどの先行芸術は、熟練度レベルを名目上の階級として扱い、その順序構造と熟練度ラベル間の一様でない間隔を無視している。
本稿では,SSLと手作りインジケータ機能を組み合わせた効果的なASA手法を提案する。
論文 参考訳(メタデータ) (2025-08-27T09:18:51Z) - Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling [21.82879779173242]
ラベル付きデータの欠如は、音声分類タスクにおいて共通の課題である。
そこで我々は,新しい多視点擬似ラベル手法を導入したセミスーパーバイザードラーニング(SSL)フレームワークを提案する。
感情認識と認知症検出タスクにおけるSSLフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-09-25T13:51:19Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Combating Label Noise With A General Surrogate Model For Sample Selection [77.45468386115306]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites:
A Federated Learning Approach with Noise-Resilient Training [75.40980802817349]
深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。
我々は,MS病変の不均衡分布とファジィ境界を考慮したDecoupled Hard Label Correction(DHLC)戦略を導入する。
また,集約型中央モデルを利用したCELC(Centrally Enhanced Label Correction)戦略も導入した。
論文 参考訳(メタデータ) (2023-08-31T00:36:10Z) - Robust Medical Image Classification from Noisy Labeled Data with Global
and Local Representation Guided Co-training [73.60883490436956]
本稿では,ロバストな医用画像分類のためのグローバルおよびローカルな表現学習を用いた新しい協調学習パラダイムを提案する。
ノイズラベルフィルタを用いた自己アンサンブルモデルを用いて、クリーンでノイズの多いサンプルを効率的に選択する。
また,ネットワークを暗黙的に正規化してノイズの多いサンプルを利用するための,グローバルかつ局所的な表現学習手法を設計する。
論文 参考訳(メタデータ) (2022-05-10T07:50:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。