論文の概要: Zero-Shot Parkinson's Disease Detection from Speech: Comparing Large Audio and Language Models
- arxiv url: http://arxiv.org/abs/2605.24806v1
- Date: Sun, 24 May 2026 01:39:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.455541
- Title: Zero-Shot Parkinson's Disease Detection from Speech: Comparing Large Audio and Language Models
- Title(参考訳): 音声によるゼロショットパーキンソン病の検出:大規模音声モデルと言語モデルの比較
- Authors: Muhammad Ashad Kabir, Sirajam Munira,
- Abstract要約: ゼロショットパーキンソン病検出における2つの入力モダリティを比較した。
4言語でのPD音声データセットの実験では、入力のモーダル性、音声タスク、言語によってパフォーマンスが変化していることが示されている。
- 参考スコア(独自算出の注目度): 0.5442955439283729
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large audio and language models have recently demonstrated zero-shot reasoning capabilities across various domains. However, it remains unclear how the form of audio input, whether handcrafted acoustic features extracted from speech or the raw audio waveform itself, affects performance for Parkinson's disease (PD) detection across different languages. In this study, we systematically compare two input modalities for zero-shot PD detection: (i) handcrafted acoustic features extracted from speech recordings analyzed by a general-purpose LLM, and (ii) direct waveform input analyzed by audio-capable models. Experiments on PD speech datasets in four languages show that performance varies across input modalities, speech tasks, and languages. Handcrafted acoustic features provide more stable performance in a low-resource language (e.g., Bengali), whereas audio input yields dataset-dependent gains. These findings highlight the impact of input modality on zero-shot PD detection from speech.
- Abstract(参考訳): 大規模なオーディオモデルと言語モデルは、最近、様々な領域でゼロショット推論機能を実証した。
しかし、音声入力の形式が、音声から抽出した手作り音響特徴や生音声波形自体がパーキンソン病(PD)の検出能力にどう影響するかは、まだ不明である。
本研究では,ゼロショットPD検出のための2つの入力モードを系統的に比較する。
一 汎用LLMによる音声記録から抽出した手作り音響特性及び
(II)音声可聴モデルによる直接波形入力の解析
4言語でのPD音声データセットの実験では、入力のモーダル性、音声タスク、言語によってパフォーマンスが変化していることが示されている。
手作り音響機能は、低リソース言語(例えば、Bengali)でより安定したパフォーマンスを提供するが、オーディオ入力はデータセットに依存したゲインをもたらす。
以上の結果から,入力モダリティが音声からのゼロショットPD検出に与える影響が示唆された。
関連論文リスト
- Does Language Matter for Early Detection of Parkinson's Disease from Speech? [9.968776083852813]
音声サンプルをバイオマーカーとして用いることは、パーキンソン病(PD)の進行を検知し、監視するための有望な道である
PD検出における言語の役割を評価するため,様々なデータ型と事前学習対象を持つ事前学習モデルの検証を行った。
論文 参考訳(メタデータ) (2025-07-14T19:23:09Z) - Evaluating the Effectiveness of Pre-Trained Audio Embeddings for Classification of Parkinson's Disease Speech Data [0.7673339435080445]
パーキンソン病のバイオマーカーとしての音声障害
ディープアコースティックな特徴はPD分類の可能性を示唆しているが、その効果は話者の違いによってしばしば異なる。
本研究では,PD分類における3つの事前学習オーディオ埋め込みの有効性について検討した。
論文 参考訳(メタデータ) (2025-06-02T09:32:54Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Large Language Models for Dysfluency Detection in Stuttered Speech [16.812800649507302]
音声言語におけるディファレンシを正確に検出することは、自動音声処理と言語処理の部品の性能を向上させるのに役立つ。
大規模言語モデル(LLM)を非語彙入力の普遍的な学習者やプロセッサとして展開する最近の傾向に触発されて,言語モデリング問題として多ラベルディフルエンシ検出の課題にアプローチする。
本稿では,音声エンコーダモデルから抽出した音響表現をLLMに自動音声認識システムと音響表現で生成し,英語とドイツ語を含む3つのデータセット上で,ディフルエンシラベルを予測するシステムを提案する。
論文 参考訳(メタデータ) (2024-06-16T17:51:22Z) - XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - An Audio-textual Diffusion Model For Converting Speech Signals Into
Ultrasound Tongue Imaging Data [15.171700256244684]
音響-調音インバージョン(AAI)は、超音波舌画像(UTI)データなどの音声を調音運動に変換することである。
本稿では,UTIデータ生成タスクのための音声-テキスト拡散モデルを提案する。
実験結果から,提案した拡散モデルにより,舌の輪郭が明瞭な高品質なUTIデータを生成できることが示唆された。
論文 参考訳(メタデータ) (2024-03-09T06:59:47Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。