論文の概要: PROCESS-2: A Benchmark Speech Corpus for Early Cognitive Impairment Detection
- arxiv url: http://arxiv.org/abs/2605.14888v1
- Date: Thu, 14 May 2026 14:33:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-16 00:43:04.131078
- Title: PROCESS-2: A Benchmark Speech Corpus for Early Cognitive Impairment Detection
- Title(参考訳): Process-2: 早期認知障害検出のためのベンチマーク音声コーパス
- Authors: Madhurananda Pahar, Caitlin H. Illingworth, Bahman Mirheidari, Hend Elghazaly, Fritz Peters, Sophie Young, Wing-Zin Leung, Labhpreet Kaur, Daniel Blackburn, Heidi Christensen,
- Abstract要約: Process-2は,自発音声とタスク指向音声から認知障害の自動評価を支援するために設計された大規模音声データセットである。
データセットは、CognoMemoryデジタルアセスメントプラットフォームを使用して収集された200の健康的なコントロール、150の軽度認知障害、50の認知症診断から作成されている。
- 参考スコア(独自算出の注目度): 7.611293980613308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech-based analysis offers a scalable and non-invasive approach for detecting cognitive decline, yet progress has been constrained by the limited availability of clinically validated datasets collected under realistic conditions. We introduce PROCESS-2, a large-scale speech dataset designed to support research on automatic assessment of cognitive impairment from spontaneous and task-oriented speech. The dataset comprises recordings from 200 healthy controls, 150 mild cognitive impairment, and 50 dementia diagnoses collected using the CognoMemory digital assessment platform. Each participant completed a single assessment session, including picture description and verbal fluency tasks, accompanied by manually verified transcripts and participant-level metadata. PROCESS-2 contains approximately 21 hours of speech audio with predefined train/test partitions. Comprehensive technical validation evaluated demographic balance, clinical consistency, recording stability, embedding-space structure, and reproducible baseline modelling performance, demonstrating clinically meaningful group separation and stable performance across modelling approaches while preserving real-world conversational variability. PROCESS-2 is released under controlled access via Hugging Face to enable responsible reuse while protecting participant privacy, providing a reproducible benchmark resource for speech-based cognitive assessment research.
- Abstract(参考訳): 音声に基づく分析は、認知の低下を検出するためのスケーラブルで非侵襲的なアプローチを提供するが、現実的な条件下で収集された臨床的に検証されたデータセットの可用性が制限されているため、進歩は制限されている。
本稿では,自発音声とタスク指向音声から認知障害の自動評価を支援する大規模音声データセット「Process-2」を紹介する。
データセットは、CognoMemoryデジタルアセスメントプラットフォームを使用して収集された200の健康的なコントロール、150の軽度認知障害、50の認知症診断から作成されている。
各参加者は、画像記述や言語流用タスクを含む単一のアセスメントセッションを完了し、手動で検証された書き起こしと参加者レベルのメタデータを添付した。
Process-2は、事前定義された列車/テストパーティションを備えた約21時間の音声を含む。
総合的技術的検証は, 人口収支, 臨床整合性, 記録安定性, 埋め込み空間構造, 再現可能なベースラインモデリング性能を評価し, 実世界の会話変動を保ちながら, 臨床的に有意なグループ分離とモデリングアプローチによる安定したパフォーマンスを実証した。
Processing-2はHugging Faceを通じて制御されたアクセス下でリリースされ、保護されたプライバシーを保護しながら責任ある再利用を可能にし、音声ベースの認知アセスメント研究のための再現可能なベンチマークリソースを提供する。
関連論文リスト
- A Benchmark for Early-stage Parkinson's Disease Detection from Speech [6.032182703186787]
早期パーキンソン病 (EarlyPD) は臨床的には有意であるが, 未発見である。
そこで本研究では,話者独立スプリットを用いた音声に基づく早期PD検出のための最初のベンチマークを提案する。
論文 参考訳(メタデータ) (2026-05-13T19:43:01Z) - Agentic Cognitive Profiling: Realigning Automated Alzheimer's Disease Detection with Clinical Construct Validity [66.94391219005291]
本稿では,臨床プロトコルロジックによる自動スクリーニングを実現するエージェント認知プロファイリング(ACP)を提案する。
我々の設計の中心は、すべての定量化を決定論的関数呼び出しに委譲することで、測定から意味的理解を分離することである。
ACPは、タスク試験で90.5%のスコアマッチ率、AD予測で85.3%の精度を達成し、一般的な基準を上回っている。
論文 参考訳(メタデータ) (2026-03-18T06:15:35Z) - SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models [86.19617358080016]
Social Omniは、3つのコア次元にわたる対話性の評価を運用するベンチマークである。
Social Omniは2000の知覚サンプルと209の相互作用生成インスタンスの品質管理された診断セットを備えている。
本分析により,モデルの知覚的精度と,文脈的に適切な割り込みを生成する能力との間に顕著な疎結合が明らかとなった。
論文 参考訳(メタデータ) (2026-03-17T17:58:44Z) - Something from Nothing: Data Augmentation for Robust Severity Level Estimation of Dysarthric Speech [69.86604856129883]
外科的音声品質評価(DSQA)は臨床診断と包括的音声技術において重要である。
本研究では,未ラベルの変形音声と大規模典型的な音声データセットを併用した3段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-16T23:00:07Z) - Automating Feedback Analysis in Surgical Training: Detection, Categorization, and Assessment [65.70317151363204]
本研究は,非構造化現実記録からの外科的対話を再構築するための最初の枠組みを紹介する。
外科訓練では,ライブ手術中に訓練者に提供する形式的言語フィードバックは,安全性の確保,行動の即時修正,長期的スキル獲得の促進に不可欠である。
本フレームワークは,音声活動の検出,話者ダイアリゼーション,自動音声認識と,幻覚を除去する新たな拡張機能を統合する。
論文 参考訳(メタデータ) (2024-12-01T10:35:12Z) - Exploring Speech Pattern Disorders in Autism using Machine Learning [12.469348589699766]
本研究は, 被験者と患者との対話の分析を通じて, 独特の音声パターンを識別するための包括的アプローチを提案する。
我々は,40の音声関連特徴を抽出し,周波数,ゼロクロス速度,エネルギー,スペクトル特性,メル周波数ケプストラル係数(MFCC),バランスに分類した。
分類モデルはASDと非ASDを区別することを目的としており、精度は87.75%である。
論文 参考訳(メタデータ) (2024-05-03T02:59:15Z) - Identification of Cognitive Decline from Spoken Language through Feature
Selection and the Bag of Acoustic Words Model [0.0]
記憶障害の症状の早期発見は、集団の健康確保に重要な役割を担っている。
臨床環境における標準化された音声テストの欠如は、自然音声言語を解析するための自動機械学習技術の開発にますます重点を置いている。
この研究は特徴選択に関するアプローチを示し、ジュネーブの最小音響パラメータセットと相対音声停止から診断に必要な重要な特徴を自動的に選択することを可能にする。
論文 参考訳(メタデータ) (2024-02-02T17:06:03Z) - Path Signature Representation of Patient-Clinician Interactions as a
Predictor for Neuropsychological Tests Outcomes in Children: A Proof of
Concept [40.737684553736166]
この研究は39のビデオ記録のデータセットを利用して、臨床医が認知評価テストを実施する広範囲なセッションを捉えた。
サンプルサイズと不均一な記録スタイルが限定されているにもかかわらず、解析は記録データの特徴としてパスシグネチャを抽出することに成功している。
以上の結果から,これらの特徴は,全セッション長の認知テストのスコアを予測できる有望な可能性を示唆した。
論文 参考訳(メタデータ) (2023-12-12T12:14:08Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - A New Benchmark of Aphasia Speech Recognition and Detection Based on
E-Branchformer and Multi-task Learning [29.916793641951507]
本稿では,最新の音声認識技術を用いた失語症音声認識のための新しいベンチマークを提案する。
CTC/Attentionアーキテクチャに基づく2つのマルチタスク学習手法を導入し、両方のタスクを同時に実行する。
当システムでは,中等度失語症患者に対して,最先端の話者レベル検出精度(97.3%)と相対的なWER低下率(1%)を達成している。
論文 参考訳(メタデータ) (2023-05-19T15:10:36Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。