論文の概要: LLMCARE: early detection of cognitive impairment via transformer models enhanced by LLM-generated synthetic data
- arxiv url: http://arxiv.org/abs/2508.10027v3
- Date: Mon, 10 Nov 2025 09:23:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 14:56:00.064516
- Title: LLMCARE: early detection of cognitive impairment via transformer models enhanced by LLM-generated synthetic data
- Title(参考訳): LLMCARE:LLM合成データにより増強されたトランスフォーマーモデルによる認知障害の早期検出
- Authors: Ali Zolnour, Hossein Azadmaleki, Yasaman Haghbin, Fatemeh Taherinezhad, Mohamad Javad Momeni Nezhad, Sina Rashidi, Masoud Khani, AmirSajjad Taleban, Samin Mahdizadeh Sani, Maryam Dadkhah, James M. Noble, Suzanne Bakken, Yadollah Yaghoobzadeh, Abdol-Hossein Vahabie, Masoud Rouhizadeh, Maryam Zolnoori,
- Abstract要約: アルツハイマー病と関連する認知症は、米国で500万人近い高齢者に影響を及ぼす。
本研究は,トランスフォーマー埋め込みと手作り言語的特徴を融合した音声ベースのスクリーニングパイプラインを開発し,評価する。
- 参考スコア(独自算出の注目度): 32.69241041313969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Alzheimer's disease and related dementias(ADRD) affect nearly five million older adults in the United States, yet more than half remain undiagnosed. Speech-based natural language processing(NLP) offers a scalable approach for detecting early cognitive decline through subtle linguistic markers that may precede clinical diagnosis. This study develops and evaluates a speech-based screening pipeline integrating transformer embeddings with handcrafted linguistic features, synthetic augmentation using large language models(LLMs), and benchmarking of unimodal and multimodal classifiers. External validation assessed generalizability to a MCI-only cohort. Transcripts were drawn from the ADReSSo 2021 benchmark dataset(n=237, Pitt Corpus) and the DementiaBank Delaware corpus(n=205, MCI vs. controls). Ten transformer models were tested under three fine-tuning strategies. A late-fusion model combined embeddings from the top transformer with 110 linguistic features. Five LLMs(LLaMA8B/70B, MedAlpaca7B, Ministral8B,GPT-4o) generated label-conditioned synthetic speech for augmentation, and three multimodal LLMs(GPT-4o,Qwen-Omni,Phi-4) were evaluated in zero-shot and fine-tuned modes. On ADReSSo, the fusion model achieved F1=83.3(AUC=89.5), outperforming transformer-only and linguistic baselines. MedAlpaca7B augmentation(2x) improved F1=85.7, though larger scales reduced gains. Fine-tuning boosted unimodal LLMs(MedAlpaca7B F1=47.7=>78.7), while multimodal models performed lower (Phi-4=71.6;GPT-4o=67.6). On Delaware, the fusion plus 1x MedAlpaca7B model achieved F1=72.8(AUC=69.6). Integrating transformer and linguistic features enhances ADRD detection. LLM-based augmentation improves data efficiency but yields diminishing returns, while current multimodal models remain limited. Validation on an independent MCI cohort supports the pipeline's potential for scalable, clinically relevant early screening.
- Abstract(参考訳): アルツハイマー病と関連する認知症(ADRD)は、米国で500万人近い高齢者に影響を及ぼすが、半数以上が未診断のままである。
音声に基づく自然言語処理(NLP)は、臨床診断に先行する微妙な言語マーカーを通して早期の認知低下を検出するスケーラブルなアプローチを提供する。
本研究は,手作り言語特徴と変換器埋め込みを統合した音声ベースのスクリーニングパイプラインの開発と評価,大規模言語モデル(LLM)を用いた合成拡張,非モーダル・マルチモーダル分類器のベンチマークを行う。
外部検証は、MCIのみのコホートに対する一般化性を評価した。
ADReSSo 2021ベンチマークデータセット(n=237, Pitt Corpus)とDementiaBank Delaware corpus(n=205, MCI vs. コントロール)から転写された。
10個のトランスモデルが3つの微調整戦略の下で試験された。
後期融合モデルでは、トップトランスからの埋め込みと110の言語的特徴が組み合わされた。
5つのLLM(LLaMA8B/70B,MedAlpaca7B,Ministral8B,GPT-4o)がラベル条件付き合成音声を生成し,GPT-4o,Qwen-Omni,Phi-4)をゼロショットモードおよび微調整モードで評価した。
ADReSSoでは、融合モデルはF1=83.3(AUC=89.5)を達成し、トランスフォーマーのみおよび言語ベースラインを上回った。
MedAlpaca7B augmentation(2x)によりF1=85.7が向上したが、より大きなスケールでは利得が低下した。
MedAlpaca7B F1=47.7=>78.7)、Phi-4=71.6;GPT-4o=67.6)。
デラウェア州では1倍のMedAlpaca7BがF1=72.8(AUC=69.6)に達した。
変換器と言語機能を統合することでADRD検出が強化される。
LLMベースの拡張はデータの効率を向上するが、現在のマルチモーダルモデルには制限があるが、リターンは減少する。
独立したMCIコホートでの検証は、スケーラブルで臨床的に関係のある早期スクリーニングに対するパイプラインの可能性を支持する。
関連論文リスト
- Leveraging large language models and traditional machine learning ensembles for ADHD detection from narrative transcripts [6.55440666066668]
本稿では,物語の書き起こしを用いたADHD診断(バイナリ)の自動分類のためのアンサンブルフレームワークを提案する。
LLaMA3、RoBERTa、SVM(Support Vector Machine)の3つの補完モデルを統合する。
実験の結果、アンサンブルは個々のモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-05-27T15:22:01Z) - Optimizing Multi-Stuttered Speech Classification: Leveraging Whisper's Encoder for Efficient Parameter Reduction in Automated Assessment [2.1301560294088318]
本研究は, 発声音声における不一致の同定における最後のエンコーダ層の役割を明らかにするものである。
計算効率が良く、訓練のためのパラメータが83.7%少なくなり、提案されたアプローチは様々な方言や言語に適応できるようになった。
論文 参考訳(メタデータ) (2024-06-09T13:42:51Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。