論文の概要: CBT-Audio: Evaluating Audio Language Models for Patient-Side Distress Intensity Estimation in CBT Session Recordings
- arxiv url: http://arxiv.org/abs/2605.17370v2
- Date: Tue, 19 May 2026 04:10:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.548575
- Title: CBT-Audio: Evaluating Audio Language Models for Patient-Side Distress Intensity Estimation in CBT Session Recordings
- Title(参考訳): CBT-Audio:CBTセッション記録における患者側距離強度推定のための音声言語モデルの評価
- Authors: Qixuan Hu, Shuchang Ye, Xumou Zhang, Anastasia Serafimovska, Anastasia Suraev, Amit Saha, Ping-hsiu Lin, Sydney Su, Usman Naseem, Adam G. Dunn, Jinman Kim,
- Abstract要約: 音声言語モデルを用いたCBTセッションから患者の苦痛度を推定するためのデータセットであるCBT-Audioを紹介する。
我々は,3つの入力条件下で10のオープンソース音声モデルを評価し,そこでは患者音声のみを受信し,転写のみを受信し,音声と転写の両方を受信する。
以上の結果から,音声はテキスト以外の有用な情報を提供することが可能であることが示唆された。
- 参考スコア(独自算出の注目度): 15.85201783619648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cognitive behavioural therapy is widely used to help patients understand and manage psychological distress. It is often delivered through spoken conversation, where therapists attend not only to what patients say, but also to how they say it, because these cues can help therapists decide how to respond and adapt treatment. Progress in building AI systems for CBT remains largely limited to text, partly because most available datasets are text based and shareable spoken CBT data are scarce under ethical and privacy constraints. This creates a blind spot because text based models and evaluations cannot capture the mismatch between the transcript and the patient's voice, even though therapists often rely on this mismatch to understand patient distress. We introduce CBT-Audio, a dataset for evaluating patient distress estimation from spoken CBT sessions with audio language models. CBT-Audio contains 1,802 patient turns from 96 publicly available CBT recordings, with turn-level distress labels validated on an experts-annotated subset. We evaluate 10 open source audio language models under three input conditions, where models receive only patient audio, only the transcript, or both audio and transcript. Our results show that audio can provide useful information beyond text, especially when combined with transcripts. Adding audio to transcript input improves distress estimation over using the transcript alone in 8 of 10 model families, with significant gains in 4, and case studies show the clearest benefit when verbal content and vocal delivery diverge. CBT-Audio makes spoken patient behaviour measurable for AI evaluation in CBT-related tasks and supports future work on audio language models for mental health interaction.
- Abstract(参考訳): 認知行動療法は、患者が心理的苦痛を理解し、管理するのを助けるために広く用いられている。
セラピストは患者が何を言っているかだけでなく、その言い方にも参加するが、これはセラピストが治療に反応し適応する方法を決めるのに役立つためである。
CBT用のAIシステム構築の進歩は、ほとんどのデータセットがテキストベースであり、共有可能なCBTデータは倫理的およびプライバシー上の制約の下で不足しているため、テキストに大きく制限されている。
これは、テキストベースのモデルと評価では、患者が苦しむことを理解するために、セラピストがしばしばこのミスマッチに頼っているにもかかわらず、書き起こしと患者の声のミスマッチをキャプチャできないため、盲点を生み出す。
音声言語モデルを用いたCBTセッションから患者の苦痛度を推定するためのデータセットであるCBT-Audioを紹介する。
CBT-Audioには、96件のCBT記録から1,802件の患者向けターンがあり、専門家が注釈を付けたサブセットでターンレベルのサバイバルラベルが検証されている。
我々は,3つの入力条件下で10のオープンソース音声モデルを評価し,そこでは患者音声のみを受信し,転写のみを受信し,音声と転写の両方を受信する。
以上の結果から,音声はテキスト以外の有用な情報を提供することが可能であることが示唆された。
書き起こし入力に音声を加えることで,10のモデルファミリーのうち8つのモデルファミリーにのみ書き起こしを使用することよりも,難易度が向上し,4つのモデルファミリーで顕著に向上し,症例スタディでは,口頭内容と発声が分岐する際の最も明確なメリットが示された。
CBT-Audioは、CBT関連タスクにおけるAI評価のための音声患者の行動測定を可能にし、メンタルヘルスインタラクションのための音声言語モデルに関する将来の作業をサポートする。
関連論文リスト
- WhiSPA: Semantically and Psychologically Aligned Whisper with Self-Supervised Contrastive and Student-Teacher Learning [6.287362888070063]
本研究は,後続のテキスト-LMが不要となるような音声モデルにおけるLMの改善手法を提案する。
本稿では,教師としての言語モデル埋め込みによる対照的な損失という,新たな学習目標を生かしたWhiSPAを紹介する。
論文 参考訳(メタデータ) (2025-01-15T06:30:17Z) - CBT-Bench: Evaluating Large Language Models on Assisting Cognitive Behavior Therapy [67.23830698947637]
認知行動療法(CBT)支援の体系的評価のための新しいベンチマークであるCBT-BENCHを提案する。
我々は, CBT-BENCHにおける3段階の課題を含む: I: 基本的CBT知識獲得, 複数選択質問のタスク; II: 認知的モデル理解, 認知的歪み分類, 主根的信念分類, きめ細かい中核信念分類のタスク; III: 治療的応答生成, CBTセラピーセッションにおける患者音声に対する応答生成のタスク。
実験結果から,LLMはCBT知識のリサイティングに優れるが,複雑な実世界のシナリオでは不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-17T04:52:57Z) - Developing vocal system impaired patient-aimed voice quality assessment approach using ASR representation-included multiple features [0.4681310436826459]
本稿では,音声認識と自己教師型学習表現の利用について紹介する。
実験ではPVQDデータセットのチェックを行い、英語における様々な声道系の損傷の原因をカバーし、パーキンソン病の患者に焦点を当てた日本語データセットを作成した。
PVQDの結果, PCCでは0.8, MSEでは0.5と顕著な相関がみられた。
論文 参考訳(メタデータ) (2024-08-22T10:22:53Z) - A New Benchmark of Aphasia Speech Recognition and Detection Based on
E-Branchformer and Multi-task Learning [29.916793641951507]
本稿では,最新の音声認識技術を用いた失語症音声認識のための新しいベンチマークを提案する。
CTC/Attentionアーキテクチャに基づく2つのマルチタスク学習手法を導入し、両方のタスクを同時に実行する。
当システムでは,中等度失語症患者に対して,最先端の話者レベル検出精度(97.3%)と相対的なWER低下率(1%)を達成している。
論文 参考訳(メタデータ) (2023-05-19T15:10:36Z) - Going Beyond the Cookie Theft Picture Test: Detecting Cognitive
Impairments using Acoustic Features [0.18472148461613155]
標準化されたテストの音響的特徴は、認知障害者と非障害者とを確実に識別するために有効であることを示す。
インタビューのランダムな音声サンプルから抽出した特徴でさえ、認知障害の識別要因であることを示す。
論文 参考訳(メタデータ) (2022-06-10T12:04:22Z) - KSoF: The Kassel State of Fluency Dataset -- A Therapy Centered Dataset
of Stuttering [58.91587609873915]
この研究で紹介されるKassel State of Fluency (KSoF)は、治療ベースのデータセットで、5500以上の散在するPWSのクリップを含んでいる。
オーディオは、Institut der Kasseler Stottertherapieのセラピーセッション中に録音された。
論文 参考訳(メタデータ) (2022-03-10T14:17:07Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - Silent Speech Interfaces for Speech Restoration: A Review [59.68902463890532]
サイレント音声インタフェース (SSI) の研究は、重度音声障害の患者に対して、代替的で拡張的なコミュニケーション方法を提供することを目的としている。
SSIは、コミュニケーションを可能にするために、音声生成中に人体によって生成される非音響バイオシグナーに依存している。
現在、ほとんどのSSIは、健康なユーザーのために実験室でのみ検証されている。
論文 参考訳(メタデータ) (2020-09-04T11:05:50Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z) - Feature Fusion Strategies for End-to-End Evaluation of Cognitive
Behavior Therapy Sessions [32.198800906972366]
本研究では,音声音声をダイアリゼーションおよび転写テキストに変換し,認知行動療法セッションを自動的にコードに変換するエンドツーエンドパイプラインを開発した。
CBT符号推定のための発話レベルタグを用いて単語ベースの特徴量を増やす新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-15T22:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。