論文の概要: SAIC: Integration of Speech Anonymization and Identity Classification
- arxiv url: http://arxiv.org/abs/2312.15190v1
- Date: Sat, 23 Dec 2023 08:14:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 19:10:30.914685
- Title: SAIC: Integration of Speech Anonymization and Identity Classification
- Title(参考訳): SAIC:音声匿名化とアイデンティティ分類の統合
- Authors: Ming Cheng, Xingjian Diao, Shitong Cheng, Wenjun Liu
- Abstract要約: 音声匿名化と同一性分類を統合する革新的なパイプラインであるSAICを提案する。
SAICは、Voxceleb1データセット上の話者識別分類タスクにおいて、顕著なパフォーマンスを示し、最先端の96.1%の精度で最先端に到達している。
- 参考スコア(独自算出の注目度): 3.8871771267431035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech anonymization and de-identification have garnered significant
attention recently, especially in the healthcare area including telehealth
consultations, patient voiceprint matching, and patient real-time monitoring.
Speaker identity classification tasks, which involve recognizing specific
speakers from audio to learn identity features, are crucial for
de-identification. Since rare studies have effectively combined speech
anonymization with identity classification, we propose SAIC - an innovative
pipeline for integrating Speech Anonymization and Identity Classification. SAIC
demonstrates remarkable performance and reaches state-of-the-art in the speaker
identity classification task on the Voxceleb1 dataset, with a top-1 accuracy of
96.1%. Although SAIC is not trained or evaluated specifically on clinical data,
the result strongly proves the model's effectiveness and the possibility to
generalize into the healthcare area, providing insightful guidance for future
work.
- Abstract(参考訳): 近年,遠隔医療,患者音声のマッチング,患者リアルタイムモニタリングなど医療分野において,音声の匿名化や非識別化が注目されている。
特定話者を識別して識別特徴を学習する話者識別タスクは、識別の解除に不可欠である。
稀な研究は音声匿名化とアイデンティティ分類を効果的に組み合わせているため、音声認識とアイデンティティ分類を統合する革新的なパイプラインであるSAICを提案する。
SAICは、Voxceleb1データセット上の話者識別分類タスクにおいて、顕著なパフォーマンスを示し、最先端の精度96.1%に達する。
SAICは臨床データに基づいてトレーニングや評価が行われていないが、この結果はモデルの有効性と医療分野への一般化の可能性を強く証明し、今後の作業に対する洞察力のあるガイダンスを提供する。
関連論文リスト
- Speech-based Clinical Depression Screening: An Empirical Study [32.84863235794086]
本研究では,AIを用いた抑うつスクリーニングにおける音声信号の有用性について検討した。
参加者には、北京大学第6病院の外来から採用されているうつ病患者が含まれる。
音声と深部音声の特徴を各参加者の分節録音から抽出した。
論文 参考訳(メタデータ) (2024-06-05T09:43:54Z) - Identification of Cognitive Decline from Spoken Language through Feature
Selection and the Bag of Acoustic Words Model [0.0]
記憶障害の症状の早期発見は、集団の健康確保に重要な役割を担っている。
臨床環境における標準化された音声テストの欠如は、自然音声言語を解析するための自動機械学習技術の開発にますます重点を置いている。
この研究は特徴選択に関するアプローチを示し、ジュネーブの最小音響パラメータセットと相対音声停止から診断に必要な重要な特徴を自動的に選択することを可能にする。
論文 参考訳(メタデータ) (2024-02-02T17:06:03Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - On the Impact of Voice Anonymization on Speech Diagnostic Applications: a Case Study on COVID-19 Detection [13.227360396362707]
話者のプライバシーとアイデンティティを維持するために、音声匿名化への関心が高まっている。
しかし、感情コンピューティングや疾患モニタリングのアプリケーションにとって、パラ言語的コンテンツはより重要かもしれない。
我々は3つの匿名化手法と、5つの異なる最先端の新型コロナウイルス診断システムへの影響を検証した。
論文 参考訳(メタデータ) (2023-04-05T01:09:58Z) - Why does Self-Supervised Learning for Speech Recognition Benefit Speaker
Recognition? [86.53044183309824]
話者関連課題における自己教師型学習の成功につながる要因について検討する。
Voxceleb-1データセットにおける実験結果から,SVタスクに対するSSLの利点は,マスクによる予測損失,データスケール,モデルサイズの組み合わせによるものであることが示唆された。
論文 参考訳(メタデータ) (2022-04-27T08:35:57Z) - The effect of speech pathology on automatic speaker verification -- a
large-scale study [6.468412158245622]
病的スピーチは 健康なスピーチに比べて プライバシー侵害のリスクが高まっています
ディスフォニアの成人は再識別のリスクが高まる一方、ディスフォニアのような症状は健康な話者に匹敵する結果をもたらす。
病理型間でデータをマージすると、EERは著しく低下し、自動話者検証における病理多様性の潜在的利点が示唆された。
論文 参考訳(メタデータ) (2022-04-13T15:17:00Z) - Protecting gender and identity with disentangled speech representations [49.00162808063399]
音声における性情報保護は,話者識別情報のモデル化よりも効果的であることを示す。
性別情報をエンコードし、2つの敏感な生体識別子を解読する新しい方法を提示する。
論文 参考訳(メタデータ) (2021-04-22T13:31:41Z) - Brain Signals to Rescue Aphasia, Apraxia and Dysarthria Speech
Recognition [14.544989316741091]
本稿では,失語症,失語症,構音障害に対する自動音声認識システムの性能を向上させるための深層学習に基づくアルゴリズムを提案する。
分離音声認識タスクにおいて,テスト時間中のデコード性能が50%以上向上することを示す。
その結果, 失語症, 失語症, 構音障害から回復した脳卒中患者の実時間ロバスト音声補綴物の設計に非侵襲的神経信号を利用する可能性を示す第一歩が示された。
論文 参考訳(メタデータ) (2021-02-28T03:27:02Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。