論文の概要: Exploratory Evaluation of Speech Content Masking
- arxiv url: http://arxiv.org/abs/2401.03936v1
- Date: Mon, 8 Jan 2024 14:56:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 16:08:07.127017
- Title: Exploratory Evaluation of Speech Content Masking
- Title(参考訳): 音声コンテンツマスキングの探索的評価
- Authors: Jennifer Williams, Karla Pizzi, Paul-Gauthier Noe, Sneha Das
- Abstract要約: コンテントマスキング」と呼ばれる新しいタイプのプライバシを探求する玩具問題を導入する。
個別の音声表現(音声符号)の系列変更に基づくベースラインマスキング手法の評価を行う。
本稿では,3種類のマスキング場所と3種類のマスキング戦略について検討する。
- 参考スコア(独自算出の注目度): 7.012446339121189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most recent speech privacy efforts have focused on anonymizing acoustic
speaker attributes but there has not been as much research into protecting
information from speech content. We introduce a toy problem that explores an
emerging type of privacy called "content masking" which conceals selected words
and phrases in speech. In our efforts to define this problem space, we evaluate
an introductory baseline masking technique based on modifying sequences of
discrete phone representations (phone codes) produced from a pre-trained
vector-quantized variational autoencoder (VQ-VAE) and re-synthesized using
WaveRNN. We investigate three different masking locations and three types of
masking strategies: noise substitution, word deletion, and phone sequence
reversal. Our work attempts to characterize how masking affects two downstream
tasks: automatic speech recognition (ASR) and automatic speaker verification
(ASV). We observe how the different masks types and locations impact these
downstream tasks and discuss how these issues may influence privacy goals.
- Abstract(参考訳): 最近の音声プライバシーの取り組みは、音声話者属性の匿名化に重点を置いているが、音声コンテンツから情報を保護する研究はあまり行われていない。
本稿では,選択した単語やフレーズを音声で隠蔽する「コンテンツマスキング」と呼ばれる,新たなタイプのプライバシを探索する玩具問題を提案する。
本稿では, ベクトル量子化変分オートエンコーダ(VQ-VAE)から生成し, WaveRNNを用いて再合成した離散的な音声表現(音声符号)のシーケンスを改良した序列ベースラインマスキング手法について検討する。
本稿では,3種類のマスキング場所と3種類のマスキング戦略について検討する。
本研究では,自動音声認識(ASR)と自動話者検証(ASV)の2つの下流タスクにマスキングがどう影響するかを特徴付ける。
異なるマスクの種類や場所がこれらの下流タスクにどのように影響するかを観察し、これらの問題がプライバシーの目標にどのように影響するかを議論する。
関連論文リスト
- Exploring VQ-VAE with Prosody Parameters for Speaker Anonymization [0.5497663232622965]
本稿ではベクトル量子変分自動エンコーダ(VQ-VAE)に基づくエンドツーエンドネットワークを用いた話者匿名化手法について検討する。
言語的・感情的な内容を保持しながら、話者のアイデンティティを特に標的にし、修正するためにこれらのコンポーネントをアンタングルするように設計されている。
この手法は感情情報の保存において,ほとんどのベースライン技術より優れていることを示す。
論文 参考訳(メタデータ) (2024-09-24T08:55:10Z) - SafeEar: Content Privacy-Preserving Audio Deepfake Detection [17.859275594843965]
音声コンテンツにアクセスすることなくディープフェイク音声を検知する新しいフレームワークであるSafeEarを提案する。
私たちのキーとなるアイデアは、ニューラルオーディオを、セマンティックおよび音響情報をオーディオサンプルから適切に分離する、新しいデカップリングモデルに組み込むことです。
このようにして、セマンティックな内容が検出器に露出されることはない。
論文 参考訳(メタデータ) (2024-09-14T02:45:09Z) - Seeing Your Speech Style: A Novel Zero-Shot Identity-Disentanglement Face-based Voice Conversion [5.483488375189695]
顔に基づく音声変換(FVC)は、顔画像を利用してターゲット話者の音声スタイルを生成する新しいタスクである。
先行研究は,(1)話者の音声識別情報に整合した顔埋め込みの獲得に苦しむこと,(2)コンテンツと話者識別情報を音声入力から切り離すのに不適切であること,の2つの欠点がある。
上記の2つの制限を克服する新しいFVC手法であるID-FaceVCを提案する。
論文 参考訳(メタデータ) (2024-09-01T11:51:18Z) - Empowering Whisper as a Joint Multi-Talker and Target-Talker Speech Recognition System [73.34663391495616]
本稿では,複数話者と目標話者の音声認識タスクを併用する先駆的手法を提案する。
具体的には、Whisperを凍結し、Sidecarセパレータをエンコーダに差し込み、複数の話者に対する混合埋め込みを分離する。
AishellMix Mandarin データセット上で,マルチストーカー ASR 上で許容できるゼロショット性能を提供する。
論文 参考訳(メタデータ) (2024-07-13T09:28:24Z) - Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - Improving Speech Representation Learning via Speech-level and
Phoneme-level Masking Approach [29.962519978925236]
音声レベルのマスキングと音素レベルのマスキングの2種類のマスキング手法を提案する。
これら2つの手法を用いて事前学習を行い、音素分類と話者認識の2つの下流課題について評価した。
論文 参考訳(メタデータ) (2022-10-25T07:26:47Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文 参考訳(メタデータ) (2021-11-24T18:50:47Z) - Protecting gender and identity with disentangled speech representations [49.00162808063399]
音声における性情報保護は,話者識別情報のモデル化よりも効果的であることを示す。
性別情報をエンコードし、2つの敏感な生体識別子を解読する新しい方法を提示する。
論文 参考訳(メタデータ) (2021-04-22T13:31:41Z) - Adversarially learning disentangled speech representations for robust
multi-factor voice conversion [39.91395314356084]
本稿では,敵対的学習に基づくアンタングル型音声表現学習フレームワークを提案する。
内容、音色、リズム、ピッチを特徴付ける4つの音声表現を抽出し、さらに混乱させる。
実験の結果,提案手法はVCの頑健性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2021-01-30T08:29:55Z) - Multimodal Speech Recognition with Unstructured Audio Masking [49.01826387664443]
我々はモデルトレーニング中にRandWordMaskと呼ばれるより現実的なマスキングシナリオをシミュレートする。
Flickr 8K Audio Captions Corpusで行った実験では、マルチモーダルASRが様々な種類のマスキング語を復元するために一般化できることが示されている。
分析の結果,音声信号が破損した場合に,我々のモデルが視覚信号に対応できることが判明した。
論文 参考訳(メタデータ) (2020-10-16T21:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。