論文の概要: Multiview Canonical Correlation Analysis for Automatic Pathological
Speech Detection
- arxiv url: http://arxiv.org/abs/2409.17276v1
- Date: Fri, 13 Sep 2024 08:04:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-30 12:52:34.756814
- Title: Multiview Canonical Correlation Analysis for Automatic Pathological
Speech Detection
- Title(参考訳): 自動病理診断のための多視点カノニカル相関解析
音声検出
- Authors: Yacouba Kaloga and Shakeel A. Sheikh and Ina Kodrasi
- Abstract要約: 本稿では,自動音声検出に先立って入力表現にMultiview Canonical correlation Analysis (MCCA)を適用することを提案する。
以上の結果から,MCCAは,他の次元減少技術と異なり,病的音声検出性能が著しく向上することが示唆された。
- 参考スコア(独自算出の注目度): 14.877070496733966
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recently proposed automatic pathological speech detection approaches rely on
spectrogram input representations or wav2vec2 embeddings. These representations
may contain pathology irrelevant uncorrelated information, such as changing
phonetic content or variations in speaking style across time, which can
adversely affect classification performance. To address this issue, we propose
to use Multiview Canonical Correlation Analysis (MCCA) on these input
representations prior to automatic pathological speech detection. Our results
demonstrate that unlike other dimensionality reduction techniques, the use of
MCCA leads to a considerable improvement in pathological speech detection
performance by eliminating uncorrelated information present in the input
representations. Employing MCCA with traditional classifiers yields a
comparable or higher performance than using sophisticated architectures, while
preserving the representation structure and providing interpretability.
- Abstract(参考訳): 提案手法は, スペクトル入力表現やwav2vec2埋め込みに頼っている。
これらの表現は、時間とともに音声内容や話し方の変化など、無関係な病理情報を含んでいて、分類性能に悪影響を及ぼす可能性がある。
そこで本研究では,これらの入力表現にMCCA (Multiview Canonical correlation Analysis) を用いることを提案する。
以上の結果から,MCCAは,他の次元減少手法と異なり,入力表現に含まれる非相関情報を排除し,病的音声検出性能を著しく向上させることが示された。
MCCAを従来の分類器に採用すると、表現構造を保ち、解釈可能性を提供しながら、洗練されたアーキテクチャを使用するよりも同等または高い性能が得られる。
関連論文リスト
- Towards objective and interpretable speech disorder assessment: a comparative analysis of CNN and transformer-based models [7.774205081900019]
頭頸部癌(HNC)は、患者の発話能力に大きな影響を与え、生活の質に影響を及ぼす。
本研究では,HNC患者を対象とした音声分類のための自己教師型Wav2Vec2モデルを提案する。
論文 参考訳(メタデータ) (2024-06-07T08:51:52Z) - Automatic Disfluency Detection from Untranscribed Speech [25.534535098405602]
発声は、高頻度の不一致を特徴とする発声障害である。
自動逆流検出は、不安定な個人に対する治療計画を立案するのに役立ちます。
本研究では,フレームレベルの自動ディフルエンシ検出と分類のための言語,音響,マルチモーダル手法について検討する。
論文 参考訳(メタデータ) (2023-11-01T21:36:39Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - TraSeTR: Track-to-Segment Transformer with Contrastive Query for
Instance-level Instrument Segmentation in Robotic Surgery [60.439434751619736]
そこで我々は,TraSeTRを提案する。TraSeTR,TraSeTR,Trace-to-Segment Transformerは,手術器具のセグメンテーションを支援する。
TraSeTRは、機器の種類、位置、アイデンティティとインスタンスレベルの予測を共同で理由付けている。
提案手法の有効性を,3つの公開データセットに対して,最先端の計器型セグメンテーション結果を用いて実証した。
論文 参考訳(メタデータ) (2022-02-17T05:52:18Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Unsupervised low-rank representations for speech emotion recognition [78.38221758430244]
音声感情認識のための低ランク特徴表現の抽出に線形および非線形次元削減アルゴリズムを用いて検討する。
異なる分類法を用いて2つのデータベース上で学習した表現の音声認識(SER)結果を報告する。
論文 参考訳(メタデータ) (2021-04-14T18:30:58Z) - Correlation based Multi-phasal models for improved imagined speech EEG
recognition [22.196642357767338]
本研究の目的は,特定の音声単位に対応する音声の動きを,話し,想像,実行しながら記録された多相脳波データに含まれる並列情報から利益を得ることである。
ニューラルネットワークを用いた二相共通表現学習モジュールは、解析フェーズと支援フェーズ間の相関をモデル化する。
提案手法は復号化時の多相データの非可利用性をさらに扱う。
論文 参考訳(メタデータ) (2020-11-04T09:39:53Z) - End-to-End Speech Recognition and Disfluency Removal [15.910282983166024]
本稿では,エンド・ツー・エンド音声認識とディフルエンシ除去の課題について検討する。
エンド・ツー・エンドのモデルでは、フロート・トランスクリプトを直接生成できることが示されている。
統合型ASRモデルと非フルエンシモデルの評価に使用できる2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2020-09-22T03:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。