論文の概要: Beyond Binary: Multiclass Paraphasia Detection with Generative Pretrained Transformers and End-to-End Models
- arxiv url: http://arxiv.org/abs/2407.11345v1
- Date: Tue, 16 Jul 2024 03:24:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 18:42:16.747660
- Title: Beyond Binary: Multiclass Paraphasia Detection with Generative Pretrained Transformers and End-to-End Models
- Title(参考訳): Beyond Binary: Generative Pretrained Transformer と End-to-End Model を用いたマルチクラスパラパシア検出
- Authors: Matthew Perez, Aneesha Sampath, Minxue Niu, Emily Mower Provost,
- Abstract要約: 失語症(英: Aphasia)は、失語症として知られる言語障害である。
本稿では,GPT(Generative Pretrained Transformer)を用いて,転写産物から失語症を同定する手法を提案する。
単一シーケンスモデルはマルチクラスパラパシア検出においてGPTベースラインより優れていることを示す。
- 参考スコア(独自算出の注目度): 10.131053400122308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aphasia is a language disorder that can lead to speech errors known as paraphasias, which involve the misuse, substitution, or invention of words. Automatic paraphasia detection can help those with Aphasia by facilitating clinical assessment and treatment planning options. However, most automatic paraphasia detection works have focused solely on binary detection, which involves recognizing only the presence or absence of a paraphasia. Multiclass paraphasia detection represents an unexplored area of research that focuses on identifying multiple types of paraphasias and where they occur in a given speech segment. We present novel approaches that use a generative pretrained transformer (GPT) to identify paraphasias from transcripts as well as two end-to-end approaches that focus on modeling both automatic speech recognition (ASR) and paraphasia classification as multiple sequences vs. a single sequence. We demonstrate that a single sequence model outperforms GPT baselines for multiclass paraphasia detection.
- Abstract(参考訳): 失語症(英: Aphasia)は、言語障害の一種で、失語、置換、または単語の発明を含むパラ失語と呼ばれる言語エラーを引き起こす。
自動失語症検出は、臨床評価と治療計画の選択肢を促進することで失語症の患者を助けることができる。
しかし、ほとんどの自動失語症検出作業はバイナリー検出のみに焦点を当てており、失語症の有無のみを認識する必要がある。
マルチクラス失語症検出は、複数のタイプの失語症を特定し、特定の音声セグメントでそれらがどこで起こるかに焦点を当てた、探索されていない研究領域である。
本稿では、生成事前学習型トランスフォーマー(GPT)を用いて書き起こしから失語を識別する手法と、自動音声認識(ASR)と失語症分類の両方を1つのシーケンスに対して複数のシーケンスとしてモデル化することに焦点を当てた2つのエンドツーエンドアプローチを提案する。
単一シーケンスモデルはマルチクラスパラパシア検出においてGPTベースラインより優れていることを示す。
関連論文リスト
- Towards Within-Class Variation in Alzheimer's Disease Detection from Spontaneous Speech [60.08015780474457]
アルツハイマー病(AD)の検出は、機械学習の分類モデルを使用する有望な研究領域として浮上している。
我々は、AD検出において、クラス内変異が重要な課題であると考え、ADを持つ個人は認知障害のスペクトルを示す。
本稿では,ソフトターゲット蒸留 (SoTD) とインスタンスレベルの再分散 (InRe) の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-22T02:06:05Z) - Self-supervised Speech Models for Word-Level Stuttered Speech Detection [66.46810024006712]
自己教師付き音声モデルを利用した単語レベルの発声音声検出モデルを提案する。
本評価は, 単語レベルの発声検出において, 従来の手法を超越していることを示す。
論文 参考訳(メタデータ) (2024-09-16T20:18:20Z) - Seq2seq for Automatic Paraphasia Detection in Aphasic Speech [14.686874756530322]
失語症は失語症の特徴である発話誤りであり、病気の重症度やサブタイプを評価する上で重要な信号である。
伝統的に、臨床医は言語サンプルの翻訳と分析によってパラファシアを手動で識別する。
本稿では,ASRと失語症検出の両方を行うために,エンドツーエンド(E2E)を訓練した新しいシーケンス・ツー・シーケンス(seq2seq)モデルを提案する。
論文 参考訳(メタデータ) (2023-12-16T18:22:37Z) - What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - Learning Co-Speech Gesture for Multimodal Aphasia Type Detection [12.164549524639249]
失語症は脳損傷による言語障害である。
音声とそれに対応するジェスチャーパターンを用いた失語症型検出のためのグラフニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-10-18T04:54:32Z) - Careful Whisper -- leveraging advances in automatic speech recognition
for robust and interpretable aphasia subtype classification [0.0]
本稿では,音声記録から音声異常を同定し,音声障害の評価を支援するための完全自動アプローチを提案する。
Connectionist Temporal Classification (CTC) と encoder-decoder-based auto speech recognition model を組み合わせることで、リッチな音響およびクリーンな書き起こしを生成する。
そこで本研究では,これらの書き起こしから特徴を抽出し,健全な音声のプロトタイプを作成するために,いくつかの自然言語処理手法を適用した。
論文 参考訳(メタデータ) (2023-08-02T15:53:59Z) - A New Benchmark of Aphasia Speech Recognition and Detection Based on
E-Branchformer and Multi-task Learning [29.916793641951507]
本稿では,最新の音声認識技術を用いた失語症音声認識のための新しいベンチマークを提案する。
CTC/Attentionアーキテクチャに基づく2つのマルチタスク学習手法を導入し、両方のタスクを同時に実行する。
当システムでは,中等度失語症患者に対して,最先端の話者レベル検出精度(97.3%)と相対的なWER低下率(1%)を達成している。
論文 参考訳(メタデータ) (2023-05-19T15:10:36Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Multi-class versus One-class classifier in spontaneous speech analysis
oriented to Alzheimer Disease diagnosis [58.720142291102135]
本研究の目的は,音声信号から抽出した新しいバイオマーカーを用いて自動解析を行うことにより,ADの早期診断と重症度評価の改善に寄与することである。
外付け器とフラクタル次元の機能に関する情報を使用することで、システムの性能が向上する。
論文 参考訳(メタデータ) (2022-03-21T09:57:20Z) - TraSeTR: Track-to-Segment Transformer with Contrastive Query for
Instance-level Instrument Segmentation in Robotic Surgery [60.439434751619736]
そこで我々は,TraSeTRを提案する。TraSeTR,TraSeTR,Trace-to-Segment Transformerは,手術器具のセグメンテーションを支援する。
TraSeTRは、機器の種類、位置、アイデンティティとインスタンスレベルの予測を共同で理由付けている。
提案手法の有効性を,3つの公開データセットに対して,最先端の計器型セグメンテーション結果を用いて実証した。
論文 参考訳(メタデータ) (2022-02-17T05:52:18Z) - Multi-Modal Detection of Alzheimer's Disease from Speech and Text [3.702631194466718]
本稿では,アルツハイマー病(AD)の診断に音声と対応する文字を同時に利用する深層学習手法を提案する。
提案手法は,Dementiabank Pitt corpus のトレーニングおよび評価において,85.3%のクロスバリデーション精度を実現する。
論文 参考訳(メタデータ) (2020-11-30T21:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。