論文の概要: LLMCARE: Alzheimer's Detection via Transformer Models Enhanced by LLM-Generated Synthetic Data
- arxiv url: http://arxiv.org/abs/2508.10027v2
- Date: Sun, 17 Aug 2025 16:27:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.243619
- Title: LLMCARE: Alzheimer's Detection via Transformer Models Enhanced by LLM-Generated Synthetic Data
- Title(参考訳): LLMCARE: LLM生成合成データによる変換器モデルによるアルツハイマーの検出
- Authors: Ali Zolnour, Hossein Azadmaleki, Yasaman Haghbin, Fatemeh Taherinezhad, Mohamad Javad Momeni Nezhad, Sina Rashidi, Masoud Khani, AmirSajjad Taleban, Samin Mahdizadeh Sani, Maryam Dadkhah, James M. Noble, Suzanne Bakken, Yadollah Yaghoobzadeh, Abdol-Hossein Vahabie, Masoud Rouhizadeh, Maryam Zolnoori,
- Abstract要約: アルツハイマー病と関連する認知症は、米国の約500万人の高齢者に影響を及ぼす。
音声に基づく自然言語処理(NLP)は、早期認知低下を検出するための有望でスケーラブルなアプローチを提供する。
本研究は, トランスフォーマーの埋め込みと手作り言語的特徴を融合させるスクリーニングパイプラインを開発した。
- 参考スコア(独自算出の注目度): 33.0105898172763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Alzheimer's disease and related dementias (ADRD) affect approximately five million older adults in the U.S., yet over half remain undiagnosed. Speech-based natural language processing (NLP) offers a promising, scalable approach to detect early cognitive decline through linguistic markers. To develop and evaluate a screening pipeline that (i) fuses transformer embeddings with handcrafted linguistic features, (ii) tests data augmentation using synthetic speech generated by large language models (LLMs), and (iii) benchmarks unimodal and multimodal LLM classifiers for ADRD detection. Transcripts from the DementiaBank "cookie-theft" task (n = 237) were used. Ten transformer models were evaluated under three fine-tuning strategies. A fusion model combined embeddings from the top-performing transformer with 110 lexical-derived linguistic features. Five LLMs (LLaMA-8B/70B, MedAlpaca-7B, Ministral-8B, GPT-4o) were fine-tuned to generate label-conditioned synthetic speech, which was used to augment training data. Three multimodal models (GPT-4o, Qwen-Omni, Phi-4) were tested for speech-text classification in zero-shot and fine-tuned settings. The fusion model achieved F1 = 83.3 (AUC = 89.5), outperforming linguistic or transformer-only baselines. Augmenting training data with 2x MedAlpaca-7B synthetic speech increased F1 to 85.7. Fine-tuning significantly improved unimodal LLM classifiers (e.g., MedAlpaca: F1 = 47.3 -> 78.5 F1). Current multimodal models demonstrated lower performance (GPT-4o = 70.2 F1; Qwen = 66.0). Performance gains aligned with the distributional similarity between synthetic and real speech. Integrating transformer embeddings with linguistic features enhances ADRD detection from speech. Clinically tuned LLMs effectively support both classification and data augmentation, while further advancement is needed in multimodal modeling.
- Abstract(参考訳): アルツハイマー病と関連する認知症(ADRD)は、米国で約500万人の高齢者に影響を及ぼすが、半数以上が未診断のままである。
音声に基づく自然言語処理(NLP)は、言語マーカーによる早期認知の低下を検出するための、有望でスケーラブルなアプローチを提供する。
スクリーニングパイプラインの開発と評価を行う。
(i)手作りの言語的特徴を持つ変圧器の埋め込みを融合させる。
(II)大言語モデル(LLM)による合成音声を用いたデータ拡張テスト、及び
3)ADRD検出のための一様および多モードLLM分類器のベンチマーク。
DementiaBank の "cookie-theft" タスク (n = 237) の文字が使われた。
10個のトランスモデルを3つの微調整戦略で評価した。
110の語彙的言語的特徴を持つトップパフォーマンス変圧器からの融合モデルによる埋め込み
5個のLPM(LLaMA-8B/70B, MedAlpaca-7B, Ministral-8B, GPT-4o)を微調整してラベル付き合成音声を生成し, 訓練データを増強した。
3つのマルチモーダルモデル (GPT-4o, Qwen-Omni, Phi-4) をゼロショットおよび微調整環境での音声テキスト分類実験を行った。
融合モデルは F1 = 83.3 (AUC = 89.5) に達し、言語やトランスフォーマーのみのベースラインを上回った。
2x MedAlpaca-7B合成音声による訓練データの増加はF1から85.7に増加した。
微調整によりLLM分類器は大幅に改善された(例えば、MedAlpaca: F1 = 47.3 -> 78.5 F1)。
現在のマルチモーダルモデルは低い性能を示した(GPT-4o = 70.2 F1; Qwen = 66.0)。
合成音声と実音声の分布的類似性に一致した性能向上
変圧器埋め込みと言語的特徴の統合により、音声からのADRD検出が向上する。
臨床的に調整されたLSMは分類とデータ拡張の両方を効果的にサポートし、マルチモーダルモデリングにはさらなる進歩が必要である。
関連論文リスト
- Leveraging large language models and traditional machine learning ensembles for ADHD detection from narrative transcripts [6.55440666066668]
本稿では,物語の書き起こしを用いたADHD診断(バイナリ)の自動分類のためのアンサンブルフレームワークを提案する。
LLaMA3、RoBERTa、SVM(Support Vector Machine)の3つの補完モデルを統合する。
実験の結果、アンサンブルは個々のモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-05-27T15:22:01Z) - Optimizing Multi-Stuttered Speech Classification: Leveraging Whisper's Encoder for Efficient Parameter Reduction in Automated Assessment [2.1301560294088318]
本研究は, 発声音声における不一致の同定における最後のエンコーダ層の役割を明らかにするものである。
計算効率が良く、訓練のためのパラメータが83.7%少なくなり、提案されたアプローチは様々な方言や言語に適応できるようになった。
論文 参考訳(メタデータ) (2024-06-09T13:42:51Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。