論文の概要: Speech-based Clinical Depression Screening: An Empirical Study
- arxiv url: http://arxiv.org/abs/2406.03510v1
- Date: Wed, 5 Jun 2024 09:43:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 19:24:39.188376
- Title: Speech-based Clinical Depression Screening: An Empirical Study
- Title(参考訳): 音声による臨床うつ病スクリーニング : 実証的研究
- Authors: Yangbin Chen, Chenyang Xu, Chunfeng Liang, Yanbao Tao, Chuan Shi,
- Abstract要約: 本研究では,AIを用いた抑うつスクリーニングにおける音声信号の有用性について検討した。
参加者は、北京大学第6病院の外来から採用されているうつ病患者を含む。
音声と深部音声の特徴を各参加者の分節録音から抽出した。
- 参考スコア(独自算出の注目度): 32.84863235794086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates the utility of speech signals for AI-based depression screening across varied interaction scenarios, including psychiatric interviews, chatbot conversations, and text readings. Participants includes depressed patients recruited from the outpatient clinics of Peking University Sixth Hospital and control group members from the community, all diagnosed by psychiatrists following standardized diagnostic protocols. We extracted acoustic and deep speech features from each participant's segmented recordings. Classifications were made using neural networks or SVMs, with aggregated clip outcomes determining final assessments. Our analysis across interaction scenarios, speech processing techniques, and feature types confirms speech as a crucial marker for depression screening. Specifically, human-computer interaction matches clinical interview efficacy, surpassing reading tasks. Segment duration and quantity significantly affect model performance, with deep speech features substantially outperforming traditional acoustic features.
- Abstract(参考訳): 本研究では, 精神科面接, チャットボット会話, テキスト読解など, さまざまな相互作用シナリオを対象としたAIによる抑うつスクリーニングにおける音声信号の有用性について検討した。
参加者には、北京大学第6病院の外来から徴発されたうつ病患者や、地域社会のコントロールグループメンバーが含まれており、すべて標準化された診断プロトコルに従って精神科医によって診断されている。
音声と深部音声の特徴を各参加者の分節録音から抽出した。
分類はニューラルネットワークまたはSVMを使用して行われ、最終的な評価はまとめられたクリップ結果によって決定された。
対話シナリオ, 音声処理技術, 特徴型による分析により, 抑うつスクリーニングの重要な指標として音声が確認される。
具体的には、人間とコンピュータの相互作用が臨床面接の有効性と一致し、読解タスクを超越する。
セグメントの長さと量はモデル性能に大きく影響し、ディープ音声の特徴は従来の音響特性よりもかなり優れていた。
関連論文リスト
- LLM Questionnaire Completion for Automatic Psychiatric Assessment [49.1574468325115]
大規模言語モデル(LLM)を用いて、非構造的心理面接を、様々な精神科領域と人格領域にまたがる構造化された質問票に変換する。
得られた回答は、うつ病の標準化された精神医学的指標(PHQ-8)とPTSD(PCL-C)の予測に使用される特徴として符号化される。
論文 参考訳(メタデータ) (2024-06-09T09:03:11Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Selfsupervised learning for pathological speech detection [0.0]
音声生成は、様々な神経変性疾患による影響と破壊を受けやすい。
これらの障害は、異常な発声パターンと不正確な調音を特徴とする病的発声を引き起こす。
ニューロタイプ話者とは異なり、言語障害や障害のある患者は、AlexaやSiriなど、さまざまなバーチャルアシスタントにアクセスできない。
論文 参考訳(メタデータ) (2024-05-16T07:12:47Z) - Enhancing Depression-Diagnosis-Oriented Chat with Psychological State Tracking [27.96718892323191]
Depression-diagnosis-oriented chatは、自己表現の患者を誘導し、うつ病検出の主要な症状を収集することを目的としている。
最近の研究は、面接に基づくうつ病の診断をシミュレートするために、タスク指向対話とchitchatを組み合わせることに焦点を当てている。
対話をガイドするための明確なフレームワークは検討されていない。
論文 参考訳(メタデータ) (2024-03-12T07:17:01Z) - Identification of Cognitive Decline from Spoken Language through Feature
Selection and the Bag of Acoustic Words Model [0.0]
記憶障害の症状の早期発見は、集団の健康確保に重要な役割を担っている。
臨床環境における標準化された音声テストの欠如は、自然音声言語を解析するための自動機械学習技術の開発にますます重点を置いている。
この研究は特徴選択に関するアプローチを示し、ジュネーブの最小音響パラメータセットと相対音声停止から診断に必要な重要な特徴を自動的に選択することを可能にする。
論文 参考訳(メタデータ) (2024-02-02T17:06:03Z) - Path Signature Representation of Patient-Clinician Interactions as a
Predictor for Neuropsychological Tests Outcomes in Children: A Proof of
Concept [40.737684553736166]
この研究は39のビデオ記録のデータセットを利用して、臨床医が認知評価テストを実施する広範囲なセッションを捉えた。
サンプルサイズと不均一な記録スタイルが限定されているにもかかわらず、解析は記録データの特徴としてパスシグネチャを抽出することに成功している。
以上の結果から,これらの特徴は,全セッション長の認知テストのスコアを予測できる有望な可能性を示唆した。
論文 参考訳(メタデータ) (2023-12-12T12:14:08Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - Pose-based Body Language Recognition for Emotion and Psychiatric Symptom
Interpretation [75.3147962600095]
通常のRGBビデオから始まるボディーランゲージに基づく感情認識のための自動フレームワークを提案する。
心理学者との連携により,精神症状予測の枠組みを拡張した。
提案されたフレームワークの特定のアプリケーションドメインは限られた量のデータしか供給しないため、フレームワークは小さなトレーニングセットで動作するように設計されている。
論文 参考訳(メタデータ) (2020-10-30T18:45:16Z) - Comparison of Speaker Role Recognition and Speaker Enrollment Protocol
for conversational Clinical Interviews [9.728371067160941]
エンドツーエンドのニューラルネットワークアーキテクチャをトレーニングし、各タスクに適応し、各アプローチを同じメトリクスで評価します。
結果は面接者の人口統計にも依存せず,その臨床的意義を浮き彫りにした。
論文 参考訳(メタデータ) (2020-10-30T09:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。