論文の概要: Practical Machine Learning for Aphasic Discourse Analysis
- arxiv url: http://arxiv.org/abs/2511.17553v1
- Date: Wed, 12 Nov 2025 11:42:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.263924
- Title: Practical Machine Learning for Aphasic Discourse Analysis
- Title(参考訳): 失語症談話分析のための実践的機械学習
- Authors: Jason M. Pittman, Anton Phillips, Yesenia Medina-Santos, Brielle C. Stark,
- Abstract要約: 本研究は、画像記述作業中に、正しい情報単位(CIU)を確実に識別するための5つの機械学習モデルを評価する。
ベースラインモデルのトレーニングは、単語対非単語の書き起こしに対して高い精度を実現し、全てのモデルがほぼ完璧な性能を達成した。
対照的にCIU対非CIUは、k-nearest neighbor(k-NN)モデルが最も正確(0.824)で、AUC(0.787)が2番目に高い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Analyzing spoken discourse is a valid means of quantifying language ability in persons with aphasia. There are many ways to quantify discourse, one common way being to evaluate the informativeness of the discourse. That is, given the total number of words produced, how many of those are context-relevant and accurate. This type of analysis is called Correct Information Unit (CIU) analysis and is one of the most prevalent discourse analyses used by speech-language pathologists (SLPs). Despite this, CIU analysis in the clinic remains limited due to the manual labor needed by SLPs to code and analyze collected speech. Recent advances in machine learning (ML) seek to augment such labor by automating modeling of propositional, macrostructural, pragmatic, and multimodal dimensions of discourse. To that end, this study evaluated five ML models for reliable identification of Correct Information Units (CIUs, Nicholas & Brookshire, 1993), during a picture description task. The five supervised ML models were trained using randomly selected human-coded transcripts and accompanying words and CIUs from persons with aphasia. The baseline model training produced a high accuracy across transcripts for word vs non-word, with all models achieving near perfect performance (0.995) with high AUC range (0.914 min, 0.995 max). In contrast, CIU vs non-CIU showed a greater variability, with the k-nearest neighbor (k-NN) model the highest accuracy (0.824) and second highest AUC (0.787). These findings indicate that while the supervised ML models can distinguish word from not word, identifying CIUs is challenging.
- Abstract(参考訳): 音声談話の分析は失語症患者の言語能力の定量化に有効な手段である。
言論の定量化には多くの方法があり、一つの一般的な方法は言論の情報性を評価することである。
つまり、生成される単語の総数を考えると、それらのうちの何語が文脈に関連があり、正確である。
このような分析はCIU (Correct Information Unit) 解析と呼ばれ、言語病理学者 (SLP) が使用している最も一般的な談話分析の1つである。
それにもかかわらず、SLPが収集した音声をコーディングし分析するのに必要な手作業のために、クリニックでのCIU分析は依然として限られている。
機械学習(ML)の最近の進歩は、命題的、マクロ構造的、実用的、マルチモーダルな言論のモデリングを自動化することで、そのような労力を増大させようとしている。
そこで本研究では,画像記述タスクにおいて,正しい情報単位(CIUs,Nicholas & Brookshire,1993)の信頼性確認のための5つのMLモデルを評価した。
5つの教師付きMLモデルは,無作為に選択されたヒト転写文字と失語症患者の単語とCIUを用いて訓練した。
ベースラインモデルのトレーニングは、ワード対非ワードの転写文字間で高い精度を達成し、全てのモデルはAUC範囲(0.914 min, 0.995 max)のほぼ完全な性能(0.995)を達成した。
対照的にCIU対非CIUは、k-nearest neighbor(k-NN)モデルが0.824、AUCが0.787であった。
これらの結果から,教師付きMLモデルは単語と単語を区別できるが,CIUの識別は困難であることが示唆された。
関連論文リスト
- Tokenization and Representation Biases in Multilingual Models on Dialectal NLP Tasks [7.216732751280017]
我々は、事前学習された多言語モデルにおける表現バイアスの尺度として、トークン化パリティ(TP)と情報化パリティ(IP)を関連付ける。
我々は,最先端デコーダのみのLLMと,方言分類,話題分類,抽出質問応答の3つのタスクからなるエンコーダベースモデルを比較した。
分析の結果,TPは統語的・形態的手法に依存したタスクの性能を予測し,IPは意味的タスクのパフォーマンスを予測できることがわかった。
論文 参考訳(メタデータ) (2025-09-24T12:13:53Z) - Audio Large Language Models Can Be Descriptive Speech Quality Evaluators [46.765203628127345]
本稿では,人間格付けから生成した最初の自然言語に基づく音声評価コーパスについて紹介する。
このコーパスは、複数の次元にわたる詳細な分析を提供し、品質劣化の原因を特定する。
生音声から関連情報を抽出するために,LLM蒸留(ALLD)を用いたアライメント手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T22:47:51Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Scaling Language Models: Methods, Analysis & Insights from Training
Gopher [83.98181046650664]
本稿では,トランスフォーマーに基づく言語モデルの性能を,幅広いモデルスケールで解析する。
スケールからのゲインは、理解、事実確認、有害言語の同定などにおいて最大である。
我々は、AIの安全性と下流の害の軽減に対する言語モデルの適用について論じる。
論文 参考訳(メタデータ) (2021-12-08T19:41:47Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Predicting speech intelligibility from EEG using a dilated convolutional
network [17.56832530408592]
そこで本研究では,拡張畳み込みを取り入れた深層学習モデルを提案する。
本手法は, 被験者の脳波から発声閾値を予測する最初の方法であり, 音声明瞭度の客観的評価に寄与する。
論文 参考訳(メタデータ) (2021-05-14T14:12:52Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。