論文の概要: Temporal-Aware Iterative Speech Model for Dementia Detection
- arxiv url: http://arxiv.org/abs/2510.00030v1
- Date: Fri, 26 Sep 2025 01:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.165136
- Title: Temporal-Aware Iterative Speech Model for Dementia Detection
- Title(参考訳): 認知症検出のための時間認識反復音声モデル
- Authors: Chukwuemeka Ugwu, Oluwafemi Oyeleke,
- Abstract要約: 音声を用いた認知症自動検出の現在の手法は,静的,時間に依存しない特徴や集約された言語コンテンツに依存している。
本稿では,認知症検出のための自然発話を動的にモデル化するテンポラル・アウェア・イテレーティブ・フレームワークであるTAI-Speechを紹介する。
私たちの研究は、より柔軟で堅牢な認知評価ソリューションを提供し、生のオーディオのダイナミクスを直接操作します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning systems often struggle with processing long sequences, where computational complexity can become a bottleneck. Current methods for automated dementia detection using speech frequently rely on static, time-agnostic features or aggregated linguistic content, lacking the flexibility to model the subtle, progressive deterioration inherent in speech production. These approaches often miss the dynamic temporal patterns that are critical early indicators of cognitive decline. In this paper, we introduce TAI-Speech, a Temporal Aware Iterative framework that dynamically models spontaneous speech for dementia detection. The flexibility of our method is demonstrated through two key innovations: 1) Optical Flow-inspired Iterative Refinement: By treating spectrograms as sequential frames, this component uses a convolutional GRU to capture the fine-grained, frame-to-frame evolution of acoustic features. 2) Cross-Attention Based Prosodic Alignment: This component dynamically aligns spectral features with prosodic patterns, such as pitch and pauses, to create a richer representation of speech production deficits linked to functional decline (IADL). TAI-Speech adaptively models the temporal evolution of each utterance, enhancing the detection of cognitive markers. Experimental results on the DementiaBank dataset show that TAI-Speech achieves a strong AUC of 0.839 and 80.6\% accuracy, outperforming text-based baselines without relying on ASR. Our work provides a more flexible and robust solution for automated cognitive assessment, operating directly on the dynamics of raw audio.
- Abstract(参考訳): ディープラーニングシステムは、計算複雑性がボトルネックとなるような長いシーケンスの処理に苦労することが多い。
音声を用いた認知症自動検出の現在の手法は、しばしば静的で時間に依存しない特徴や集約された言語内容に依存しており、音声生成に固有の微妙で漸進的な劣化をモデル化する柔軟性に欠ける。
これらのアプローチは、認知低下の初期の重要な指標である動的時間パターンを見逃すことが多い。
本稿では,認知症検出のための自然発話を動的にモデル化するテンポラル・アウェア・イテレーティブ・フレームワークであるTAI-Speechを紹介する。
提案手法の柔軟性は,2つの重要なイノベーションを通じて実証される。
1) オプティカルフローにインスパイアされた反復リファインメント:分光図を逐次フレームとして扱うことで、このコンポーネントは、畳み込みGRUを使用して、音響特性のきめ細かいフレーム・ツー・フレームの進化を捉えます。
2)クロスアテンションに基づく韻律アライメント:このコンポーネントはスペクトル特徴をピッチやポーズなどの韻律パターンと動的に整合させ,機能低下(IADL)に関連する音声生成障害のより豊かな表現を作り出す。
TAI-Speechは、各発話の時間的進化を適応的にモデル化し、認知マーカーの検出を強化する。
DementiaBankデータセットの実験結果によると、TAI-SpeechはASRに頼ることなくテキストベースのベースラインを上回り、0.839と80.6\%の精度で強力なAUCを達成する。
私たちの研究は、より柔軟で堅牢な認知評価ソリューションを提供し、生のオーディオのダイナミクスを直接操作します。
関連論文リスト
- Dynamic Fusion Multimodal Network for SpeechWellness Detection [7.169178956727836]
自殺は青年期の死因の1つである。
これまでの自殺リスク予測研究は、主に単独でテキスト情報と音響情報の両方に焦点を当ててきた。
音声検出のための動的融合機構に基づく軽量マルチブランチマルチモーダルシステムについて検討する。
論文 参考訳(メタデータ) (2025-08-25T14:18:12Z) - Reading Between the Lines: Combining Pause Dynamics and Semantic Coherence for Automated Assessment of Thought Disorder [8.239710313549466]
本研究では,ポーズ機能と3つのデータセット間のセマンティックコヒーレンスメトリクスを統合する。
重要な発見は、停止機能だけで形式的思考障害(FTD)の重症度を確実に予測できることである。
これらの結果から,時間的分析と意味的分析を組み合わせたフレームワークが,非編成音声の評価を洗練するためのロードマップを提供する可能性が示唆された。
論文 参考訳(メタデータ) (2025-07-17T22:00:16Z) - StPR: Spatiotemporal Preservation and Routing for Exemplar-Free Video Class-Incremental Learning [79.44594332189018]
CIL(Class-Incremental Learning)は、以前取得した知識を使わずに、時間とともに新しいアクションカテゴリを継続的に学習するモデルの開発を目指している。
既存のアプローチでは、メモリとプライバシに関する懸念を忘れたり、あるいは時間的モデリングを無視する静的なイメージベースのメソッドを適用したりする。
本稿では,情報を明示的に切り離して保存する,統一的で非定型なVCILフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T06:46:51Z) - Electromyography-Based Gesture Recognition: Hierarchical Feature Extraction for Enhanced Spatial-Temporal Dynamics [0.7083699704958353]
本稿では, 時間的時間的特徴抽出手法として, 軽量な圧縮励起深層学習手法を提案する。
提案したモデルは、Ninapro DB2、DB4、DB5データセットでそれぞれ96.41%、92.40%、93.34%の精度でテストされた。
論文 参考訳(メタデータ) (2025-04-04T07:11:12Z) - Dementia Insights: A Context-Based MultiModal Approach [0.3749861135832073]
早期発見は、病気の進行を遅らせる可能性のあるタイムリーな介入に不可欠である。
テキストと音声のための大規模事前学習モデル(LPM)は、認知障害の識別において有望であることを示している。
本研究は,テキストデータと音声データを最高の性能のLPMを用いて統合する,コンテキストベースのマルチモーダル手法を提案する。
論文 参考訳(メタデータ) (2025-03-03T06:46:26Z) - Detecting Anomalies in Dynamic Graphs via Memory enhanced Normality [39.476378833827184]
動的グラフにおける異常検出は、グラフ構造と属性の時間的進化によって大きな課題となる。
時空間記憶強調グラフオートエンコーダ(STRIPE)について紹介する。
STRIPEは、AUCスコアが5.8%改善し、トレーニング時間が4.62倍速く、既存の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2024-03-14T02:26:10Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - A Novel Speech Intelligibility Enhancement Model based on
CanonicalCorrelation and Deep Learning [12.913738983870621]
完全畳み込みニューラルネットワーク(FCN)モデルをトレーニングするために,正準相関に基づく短時間客観的インテリジェンス(CC-STOI)コスト関数を提案する。
CC-STOIに基づく音声強調フレームワークは、従来の距離ベースおよびSTOIに基づく損失関数で訓練された最先端のDLモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-11T16:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。