論文の概要: Exploratory Evaluation of Speech Content Masking
- arxiv url: http://arxiv.org/abs/2401.03936v1
- Date: Mon, 8 Jan 2024 14:56:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 16:08:07.127017
- Title: Exploratory Evaluation of Speech Content Masking
- Title(参考訳): 音声コンテンツマスキングの探索的評価
- Authors: Jennifer Williams, Karla Pizzi, Paul-Gauthier Noe, Sneha Das
- Abstract要約: コンテントマスキング」と呼ばれる新しいタイプのプライバシを探求する玩具問題を導入する。
個別の音声表現(音声符号)の系列変更に基づくベースラインマスキング手法の評価を行う。
本稿では,3種類のマスキング場所と3種類のマスキング戦略について検討する。
- 参考スコア(独自算出の注目度): 7.012446339121189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most recent speech privacy efforts have focused on anonymizing acoustic
speaker attributes but there has not been as much research into protecting
information from speech content. We introduce a toy problem that explores an
emerging type of privacy called "content masking" which conceals selected words
and phrases in speech. In our efforts to define this problem space, we evaluate
an introductory baseline masking technique based on modifying sequences of
discrete phone representations (phone codes) produced from a pre-trained
vector-quantized variational autoencoder (VQ-VAE) and re-synthesized using
WaveRNN. We investigate three different masking locations and three types of
masking strategies: noise substitution, word deletion, and phone sequence
reversal. Our work attempts to characterize how masking affects two downstream
tasks: automatic speech recognition (ASR) and automatic speaker verification
(ASV). We observe how the different masks types and locations impact these
downstream tasks and discuss how these issues may influence privacy goals.
- Abstract(参考訳): 最近の音声プライバシーの取り組みは、音声話者属性の匿名化に重点を置いているが、音声コンテンツから情報を保護する研究はあまり行われていない。
本稿では,選択した単語やフレーズを音声で隠蔽する「コンテンツマスキング」と呼ばれる,新たなタイプのプライバシを探索する玩具問題を提案する。
本稿では, ベクトル量子化変分オートエンコーダ(VQ-VAE)から生成し, WaveRNNを用いて再合成した離散的な音声表現(音声符号)のシーケンスを改良した序列ベースラインマスキング手法について検討する。
本稿では,3種類のマスキング場所と3種類のマスキング戦略について検討する。
本研究では,自動音声認識(ASR)と自動話者検証(ASV)の2つの下流タスクにマスキングがどう影響するかを特徴付ける。
異なるマスクの種類や場所がこれらの下流タスクにどのように影響するかを観察し、これらの問題がプライバシーの目標にどのように影響するかを議論する。
関連論文リスト
- Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - Pre-Finetuning for Few-Shot Emotional Speech Recognition [61.463533069294414]
我々は話者適応を数発の学習問題と見なしている。
そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
論文 参考訳(メタデータ) (2023-02-24T22:38:54Z) - Improving Speech Representation Learning via Speech-level and
Phoneme-level Masking Approach [29.962519978925236]
音声レベルのマスキングと音素レベルのマスキングの2種類のマスキング手法を提案する。
これら2つの手法を用いて事前学習を行い、音素分類と話者認識の2つの下流課題について評価した。
論文 参考訳(メタデータ) (2022-10-25T07:26:47Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild [44.92322575562816]
本稿では,その変動の中で唇と音声列を関連付けることを学習するVAE-GANアーキテクチャを提案する。
私たちのジェネレータは、あらゆる人の唇のシーケンスに対して、あらゆる声で音声を合成することを学びます。
我々は、アーキテクチャの異なるモジュールの効果を分析するために、多数のアブレーション研究を行っている。
論文 参考訳(メタデータ) (2022-09-01T17:50:29Z) - Privacy-Preserving Speech Representation Learning using Vector
Quantization [0.0]
音声信号には、プライバシー上の懸念を引き起こす話者のアイデンティティなど、多くの機密情報が含まれている。
本稿では,音声認識性能を保ちながら匿名表現を実現することを目的とする。
論文 参考訳(メタデータ) (2022-03-15T14:01:11Z) - Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文 参考訳(メタデータ) (2021-11-24T18:50:47Z) - Protecting gender and identity with disentangled speech representations [49.00162808063399]
音声における性情報保護は,話者識別情報のモデル化よりも効果的であることを示す。
性別情報をエンコードし、2つの敏感な生体識別子を解読する新しい方法を提示する。
論文 参考訳(メタデータ) (2021-04-22T13:31:41Z) - Adversarially learning disentangled speech representations for robust
multi-factor voice conversion [39.91395314356084]
本稿では,敵対的学習に基づくアンタングル型音声表現学習フレームワークを提案する。
内容、音色、リズム、ピッチを特徴付ける4つの音声表現を抽出し、さらに混乱させる。
実験の結果,提案手法はVCの頑健性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2021-01-30T08:29:55Z) - Multimodal Speech Recognition with Unstructured Audio Masking [49.01826387664443]
我々はモデルトレーニング中にRandWordMaskと呼ばれるより現実的なマスキングシナリオをシミュレートする。
Flickr 8K Audio Captions Corpusで行った実験では、マルチモーダルASRが様々な種類のマスキング語を復元するために一般化できることが示されている。
分析の結果,音声信号が破損した場合に,我々のモデルが視覚信号に対応できることが判明した。
論文 参考訳(メタデータ) (2020-10-16T21:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。