論文の概要: Reading Between the Lines: Combining Pause Dynamics and Semantic Coherence for Automated Assessment of Thought Disorder
- arxiv url: http://arxiv.org/abs/2507.13551v1
- Date: Thu, 17 Jul 2025 22:00:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.144366
- Title: Reading Between the Lines: Combining Pause Dynamics and Semantic Coherence for Automated Assessment of Thought Disorder
- Title(参考訳): 行間の読書:思考障害の自動評価のためのポーズダイナミクスとセマンティックコヒーレンスを組み合わせる
- Authors: Feng Chen, Weizhe Xu, Changye Li, Serguei Pakhomov, Alex Cohen, Simran Bhola, Sandy Yin, Sunny X Tang, Michael Mackinley, Lena Palaniyappan, Dror Ben-Zeev, Trevor Cohen,
- Abstract要約: 本研究では,ポーズ機能と3つのデータセット間のセマンティックコヒーレンスメトリクスを統合する。
重要な発見は、停止機能だけで形式的思考障害(FTD)の重症度を確実に予測できることである。
これらの結果から,時間的分析と意味的分析を組み合わせたフレームワークが,非編成音声の評価を洗練するためのロードマップを提供する可能性が示唆された。
- 参考スコア(独自算出の注目度): 8.239710313549466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Formal thought disorder (FTD), a hallmark of schizophrenia spectrum disorders, manifests as incoherent speech and poses challenges for clinical assessment. Traditional clinical rating scales, though validated, are resource-intensive and lack scalability. Automated speech analysis with automatic speech recognition (ASR) allows for objective quantification of linguistic and temporal features of speech, offering scalable alternatives. The use of utterance timestamps in ASR captures pause dynamics, which are thought to reflect the cognitive processes underlying speech production. However, the utility of integrating these ASR-derived features for assessing FTD severity requires further evaluation. This study integrates pause features with semantic coherence metrics across three datasets: naturalistic self-recorded diaries (AVH, n = 140), structured picture descriptions (TOPSY, n = 72), and dream narratives (PsyCL, n = 43). We evaluated pause related features alongside established coherence measures, using support vector regression (SVR) to predict clinical FTD scores. Key findings demonstrate that pause features alone robustly predict the severity of FTD. Integrating pause features with semantic coherence metrics enhanced predictive performance compared to semantic-only models, with integration of independent models achieving correlations up to \r{ho} = 0.649 and AUC = 83.71% for severe cases detection (TOPSY, with best \r{ho} = 0.584 and AUC = 79.23% for semantic-only models). The performance gains from semantic and pause features integration held consistently across all contexts, though the nature of pause patterns was dataset-dependent. These findings suggest that frameworks combining temporal and semantic analyses provide a roadmap for refining the assessment of disorganized speech and advance automated speech analysis in psychosis.
- Abstract(参考訳): 統合失調症スペクトラム障害の徴候である形式的思考障害(FTD)は、非一貫性言語として現れ、臨床評価の課題を提起する。
従来の臨床評価尺度は、検証されているが、リソース集約であり、スケーラビリティが欠如している。
自動音声認識(ASR)による自動音声分析は、言語的特徴と時間的特徴を客観的に定量化し、スケーラブルな代替手段を提供する。
ASRにおける発話タイムスタンプの使用は、音声生成の基礎となる認知過程を反映していると考えられる停止ダイナミクスを捉えている。
しかし、これらのASRから派生した特徴を統合してFTDの重大度を評価するには、さらなる評価が必要である。
本研究では, 自然主義的自己記録日記 (AVH, n = 140), 構造化画像記述 (TOPSY, n = 72), 夢物語 (PsyCL, n = 43) の3つのデータセットを対象としたセマンティック・コヒーレンス・メトリクスとポーズ特徴を統合した。
臨床FTDスコアの予測にサポートベクター回帰(SVR)を用いて,確立したコヒーレンス対策とともに停止関連機能の評価を行った。
重要な発見は、停止機能だけでFTDの重症度を確実に予測できることである。
停止機能とセマンティックコヒーレンスメトリクスを統合することで、セマンティックオンリーモデルと比較して予測性能が向上し、独立モデルの統合により、厳密なケース検出(TOPSY、ベスト \r{ho} = 0.584、AUC = 79.23%、セマンティックオンリーモデル)の相関が達成された。
停止パターンの性質はデータセットに依存していたが、セマンティクスと一時停止機能の統合によってパフォーマンスが向上した。
これらの結果から,時間的分析と意味的分析を組み合わせたフレームワークが,精神病における非組織的音声の評価と先行的自動音声分析のロードマップを提供する可能性が示唆された。
関連論文リスト
- Benchmarking Foundation Speech and Language Models for Alzheimer's Disease and Related Dementia Detection from Spontaneous Speech [14.936023751079654]
アルツハイマー病と認知症は進行性神経変性疾患である。
自発音声には、非侵襲的なバイオマーカーとして機能する豊富な音響マーカーと言語マーカーが含まれている。
大規模オーディオまたはテキストデータに基づいて事前訓練された基礎モデルは、文脈的および音響的特徴を符号化した高次元埋め込みを生成する。
論文 参考訳(メタデータ) (2025-06-09T17:52:31Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Uncertainty Modeling in Multimodal Speech Analysis Across the Psychosis Spectrum [4.631774919831163]
精神病の特徴である発声障害は、非クリニカルな個人を含むスペクトルにわたって現れる。
我々は,症状の重症度と精神病関連特性を予測するために,音響的特徴と言語学的特徴を統合した不確実性認識モデルを開発した。
論文 参考訳(メタデータ) (2025-02-25T15:19:21Z) - Innovative Framework for Early Estimation of Mental Disorder Scores to Enable Timely Interventions [0.9297614330263184]
本稿では,PTSDとうつ病の自動分類のための高度なマルチモーダル深層学習システムについて述べる。
提案手法は, うつ病では92%, PTSDでは93%の分類精度を達成し, 従来の単潮流法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-06T10:57:10Z) - Detecting Neurocognitive Disorders through Analyses of Topic Evolution and Cross-modal Consistency in Visual-Stimulated Narratives [84.03001845263]
神経認知障害(NCD)の早期発見は、時間的介入と疾患管理に不可欠である。
音声と視覚刺激の相互整合性を測定するための2つの新しい動的マクロ構造手法を提案する。
TITANはCU-MARVEL-RABBITコーパスとADReSSコーパスの両方で優れた性能を示した。
論文 参考訳(メタデータ) (2025-01-07T12:16:26Z) - Exploring Speech Pattern Disorders in Autism using Machine Learning [12.469348589699766]
本研究は, 被験者と患者との対話の分析を通じて, 独特の音声パターンを識別するための包括的アプローチを提案する。
我々は,40の音声関連特徴を抽出し,周波数,ゼロクロス速度,エネルギー,スペクトル特性,メル周波数ケプストラル係数(MFCC),バランスに分類した。
分類モデルはASDと非ASDを区別することを目的としており、精度は87.75%である。
論文 参考訳(メタデータ) (2024-05-03T02:59:15Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。