論文の概要: Speech-Based Cognitive Screening: A Systematic Evaluation of LLM Adaptation Strategies
- arxiv url: http://arxiv.org/abs/2509.03525v1
- Date: Sun, 24 Aug 2025 13:15:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-07 09:10:15.289891
- Title: Speech-Based Cognitive Screening: A Systematic Evaluation of LLM Adaptation Strategies
- Title(参考訳): 音声による認知スクリーニング:LLM適応戦略の体系的評価
- Authors: Fatemeh Taherinezhad, Mohamad Javad Momeni Nezhad, Sepehr Karimi, Sina Rashidi, Ali Zolnour, Maryam Dadkhah, Yasaman Haghbin, Hossein AzadMaleki, Maryam Zolnoori,
- Abstract要約: アルツハイマー病と関連する認知症を持つ米国の成人の半数以上が未診断のままである。
DementiaBank音声コーパスを用いた認知症検出のための大規模言語モデル適応手法の比較を行った。
- 参考スコア(独自算出の注目度): 1.6807214708043468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over half of US adults with Alzheimer disease and related dementias remain undiagnosed, and speech-based screening offers a scalable detection approach. We compared large language model adaptation strategies for dementia detection using the DementiaBank speech corpus, evaluating nine text-only models and three multimodal audio-text models on recordings from DementiaBank speech corpus. Adaptations included in-context learning with different demonstration selection policies, reasoning-augmented prompting, parameter-efficient fine-tuning, and multimodal integration. Results showed that class-centroid demonstrations achieved the highest in-context learning performance, reasoning improved smaller models, and token-level fine-tuning generally produced the best scores. Adding a classification head substantially improved underperforming models. Among multimodal models, fine-tuned audio-text systems performed well but did not surpass the top text-only models. These findings highlight that model adaptation strategies, including demonstration selection, reasoning design, and tuning method, critically influence speech-based dementia detection, and that properly adapted open-weight models can match or exceed commercial systems.
- Abstract(参考訳): アルツハイマー病と関連する認知症を持つ米国の成人の半数以上が未診断のままであり、音声によるスクリーニングはスケーラブルな検出方法を提供する。
我々は,DementiaBank音声コーパスを用いた認知症検出のための大規模言語モデル適応戦略を比較し,DementiaBank音声コーパスからの録音に対して,9つのテキストのみのモデルと3つのマルチモーダル音声テキストモデルを評価した。
適応には、異なるデモンストレーション選択ポリシーを持つコンテキスト内学習、推論強化プロンプト、パラメータ効率の良い微調整、マルチモーダル統合が含まれる。
その結果, クラスセントロイドの実証実験は, 文脈内学習性能が最も高く, 推論によりより小さなモデルが改良され, トークンレベルの微調整により, 一般に最高のスコアが得られた。
分類ヘッドの追加は、性能の低いモデルを大幅に改善した。
マルチモーダルモデルの中では、微調整のオーディオテキストシステムは良好に動作したが、上位のテキストのみのモデルには及ばなかった。
これらの知見は, 実演選択, 推論設計, チューニング手法を含むモデル適応戦略が, 音声による認知症検出に重要な影響を及ぼし, 適切に適応されたオープンウェイトモデルが商用システムに適合するか, あるいは超える可能性があることを示唆している。
関連論文リスト
- Bigger But Not Better: Small Neural Language Models Outperform Large Language Models in Detection of Thought Disorder [7.585589727435719]
より小さなニューラルネットワークモデルが正の形式的思考障害の検出に有効な選択肢となるかどうかを検討する。
意外なことに,本研究の結果は,より小さなモデルの方が,形式的思考障害に関連する言語的差異に敏感であることが示唆された。
論文 参考訳(メタデータ) (2025-03-25T22:55:58Z) - End-to-End Speech Recognition and Disfluency Removal with Acoustic
Language Model Pretraining [0.0]
2段階モデルとエンドツーエンドモデルのパフォーマンス比較を再考する。
弱自己教師対象を用いて事前訓練された音声ベース言語モデルは、同様に訓練された2段階モデルの性能に適合するか、超えていることがわかった。
論文 参考訳(メタデータ) (2023-09-08T17:12:14Z) - SimOAP: Improve Coherence and Consistency in Persona-based Dialogue
Generation via Over-sampling and Post-evaluation [54.66399120084227]
大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果を生み出すことができる。
ペルソナに基づく対話生成タスクでは、一貫性と一貫性が言語モデルにとって大きな課題である。
オーバーサンプリングとポスト評価という2段階のSimOAP戦略が提案されている。
論文 参考訳(メタデータ) (2023-05-18T17:23:00Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - A Systematic Comparison of Phonetic Aware Techniques for Speech
Enhancement [20.329872147913584]
音声強調モデルにおける音声情報の統合方法の比較を行った。
異なる音声コンテンツモデルと様々な特徴注入技術が性能向上に与える影響を観察する。
論文 参考訳(メタデータ) (2022-06-22T12:00:50Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。