Fugu-MT 論文翻訳(概要): A Benchmark for Multi-speaker Anonymization

論文の概要: A Benchmark for Multi-speaker Anonymization

arxiv url: http://arxiv.org/abs/2407.05608v1
Date: Mon, 8 Jul 2024 04:48:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-09 17:00:01.970945
Title: A Benchmark for Multi-speaker Anonymization
Title（参考訳）: マルチ話者匿名化のためのベンチマーク
Authors: Xiaoxiao Miao, Ruijie Tao, Chang Zeng, Xin Wang,
Abstract要約: 本稿では,実世界のアプリケーションを対象としたマルチ話者匿名化ベンチマークを提案する。カスケードシステムは、話者ダイアリゼーションを使用して、各話者の音声を集約し、話者匿名化を行い、話者のプライバシーを隠蔽し、音声コンテンツを保存する。非オーバーラップシミュレーションと実世界のデータセットによる実験は、マルチスピーカー匿名化システムの有効性を実証している。
参考スコア（独自算出の注目度）: 9.990701310620368
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Privacy-preserving voice protection approaches primarily suppress privacy-related information derived from paralinguistic attributes while preserving the linguistic content. Existing solutions focus on single-speaker scenarios. However, they lack practicality for real-world applications, i.e., multi-speaker scenarios. In this paper, we present an initial attempt to provide a multi-speaker anonymization benchmark by defining the task and evaluation protocol, proposing benchmarking solutions, and discussing the privacy leakage of overlapping conversations. Specifically, ideal multi-speaker anonymization should preserve the number of speakers and the turn-taking structure of the conversation, ensuring accurate context conveyance while maintaining privacy. To achieve that, a cascaded system uses speaker diarization to aggregate the speech of each speaker and speaker anonymization to conceal speaker privacy and preserve speech content. Additionally, we propose two conversation-level speaker vector anonymization methods to improve the utility further. Both methods aim to make the original and corresponding pseudo-speaker identities of each speaker unlinkable while preserving or even improving the distinguishability among pseudo-speakers in a conversation. The first method minimizes the differential similarity across speaker pairs in the original and anonymized conversations to maintain original speaker relationships in the anonymized version. The other method minimizes the aggregated similarity across anonymized speakers to achieve better differentiation between speakers. Experiments conducted on both non-overlap simulated and real-world datasets demonstrate the effectiveness of the multi-speaker anonymization system with the proposed speaker anonymizers. Additionally, we analyzed overlapping speech regarding privacy leakage and provide potential solutions.
Abstract（参考訳）: プライバシ保護音声保護アプローチは、主に言語コンテンツを保存しながら、パラ言語的属性から派生したプライバシー関連情報を抑圧する。既存のソリューションは、単一話者シナリオに重点を置いている。しかし、現実のアプリケーション、すなわちマルチスピーカーのシナリオには実用性がない。本稿では、タスクと評価プロトコルを定義し、ベンチマークソリューションを提案し、重複する会話のプライバシー漏洩について議論することで、マルチスピーカーの匿名化ベンチマークを提供するための最初の試みについて述べる。具体的には、理想的なマルチスピーカー匿名化は、話者数と会話のターンテイク構造を維持し、プライバシーを維持しながら正確なコンテキスト伝達を保証するべきである。これを実現するために、話者ダイアリゼーションを用いて各話者の音声を集約し、話者匿名化を行い、話者のプライバシーを隠蔽し、音声コンテンツを保存する。さらに,2つの会話レベルの話者ベクトル匿名化手法を提案する。どちらの手法も、会話中の擬似話者の識別性を維持したり改善したりしながら、各話者の本来の擬似話者IDと対応する擬似話者IDをリンク不能にすることを目的としている。第1の方法は、匿名化会話における話者対間の差分類似性を最小化し、匿名化バージョンにおける話者関係を維持する。もう一つの方法は、匿名話者間で集約された類似性を最小化し、話者間のより良い差別化を実現することである。提案した話者匿名化システムによるマルチ話者匿名化システムの有効性を,非オーバーラップシミュレーションと実世界のデータセットの両方で実証した。さらに、プライバシー漏洩に関する重複したスピーチを分析し、潜在的な解決策を提供した。

関連論文リスト

Optimizing Conversational Quality in Spoken Dialogue Systems with Reinforcement Learning from AI Feedback [82.70507055599093]
本稿では,マルチターン・チェーン・オブ・ソートモデルとブロックワイド・デュプレックスモデルの両方において,SDSの品質向上のための選好学習に関する最初の体系的研究を行う。実験により, 単一回帰RLAIFは目標距離を選択的に改善し, 連立多重回帰学習は意味的品質と音声の自然性において一貫した利得が得られることが示された。
論文参考訳（メタデータ） (2026-01-27T00:55:14Z)
Target speaker anonymization in multi-speaker recordings [35.23403922131853]
本研究は,多話者対話音声における話者匿名化の重大な課題に対処する。このシナリオは、顧客のプライバシが顧客の声のみを匿名化する必要があるコールセンタのようなコンテキストに非常に関係している。本研究の目的は,会話音声における話者匿名化を効果的に行うことによって,これらのギャップを埋めることである。
論文参考訳（メタデータ） (2025-10-10T11:59:45Z)
SegReConcat: A Data Augmentation Method for Voice Anonymization Attack [20.139879210234533]
音声の匿名化は、音声データの有用性を維持しながら話者の同一性を隠蔽しようとする。自動話者検証システムの攻撃側強化のためのデータ拡張手法であるSegReConcatを提案する。
論文参考訳（メタデータ） (2025-08-26T10:26:36Z)
Speaker Mask Transformer for Multi-talker Overlapped Speech Recognition [27.35304346509647]
話者ラベルを自己回帰変換器に基づく音声認識モデルに導入する。次に、個々の話者の音声セグメントを検出するための新しい話者マスク分岐を提案する。提案モデルでは,音声認識と話者ダイアリゼーションの両方を同時に行うことができる。
論文参考訳（メタデータ） (2023-12-18T06:29:53Z)
Voice Anonymization for All -- Bias Evaluation of the Voice Privacy Challenge Baseline System [0.48342038441006807]
本研究では,ボイスプライバシチャレンジの文脈における音声匿名化システムのバイアスについて検討する。我々は、性別と方言に基づいて、話者サブグループ間のパフォーマンス格差を評価するために、新しいベンチマークデータセットをキュレートする。
論文参考訳（メタデータ） (2023-11-27T13:26:49Z)
Improving Speaker Diarization using Semantic Information: Joint Pairwise Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。音声言語理解モジュールを導入し、話者関連意味情報を抽出する。本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文参考訳（メタデータ） (2023-09-19T09:13:30Z)
Anonymizing Speech: Evaluating and Designing Speaker Anonymization Techniques [1.2691047660244337]
音声ユーザインタフェースの利用が増加し、音声データの収集と保存が急増した。本論文は、音声の匿名化と匿名化の程度を評価するためのソリューションを提案する。
論文参考訳（メタデータ） (2023-08-05T16:14:17Z)
Anonymizing Speech with Generative Adversarial Networks to Preserve Speaker Privacy [22.84840887071428]
話者匿名化は、音声録音における音声を変化させることで話者の同一性を隠蔽することを目的としている。これは一般的に、個人の保護とダウンストリームアプリケーションにおけるデータのユーザビリティとの間の、プライバシーとユーティリティのトレードオフが伴う。本稿では,ワッサースタイン距離をコスト関数として生成した逆数ネットワークを用いて話者埋め込みを生成することで,この問題に対処することを提案する。
論文参考訳（メタデータ） (2022-10-13T13:12:42Z)
Speaker Anonymization with Phonetic Intermediate Representations [22.84840887071428]
本稿では,話者の匿名化パイプラインを提案する。中間表現として電話を用いると、入力から話者識別情報のほぼ完全な除去が保証される。
論文参考訳（メタデータ） (2022-07-11T13:02:08Z)
Differentially Private Speaker Anonymization [44.90119821614047]
実世界の発話を共有することが、音声ベースのサービスのトレーニングと展開の鍵となる。話者匿名化は、言語的および韻律的属性をそのまま残しながら、発話から話者情報を除去することを目的としている。言語的属性と韻律的属性は依然として話者情報を含んでいる。
論文参考訳（メタデータ） (2022-02-23T23:20:30Z)
End-to-End Diarization for Variable Number of Speakers with Local-Global Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文参考訳（メタデータ） (2021-05-05T14:55:29Z)
Data Fusion for Audiovisual Speaker Localization: Extending Dynamic Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文参考訳（メタデータ） (2021-02-23T09:59:31Z)
Speaker De-identification System using Autoencoders and Adversarial Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文参考訳（メタデータ） (2020-11-09T19:22:05Z)
Speaker anonymisation using the McAdams coefficient [19.168733328810962]
本稿では,既存の手法とは異なり,トレーニングデータを必要としない匿名化アプローチについて報告する。提案手法は,McAdams係数を用いて音声信号のスペクトル包絡を変換する。結果は、ランダムに最適化された変換が匿名化の点で競合する解より優れていることを示している。
論文参考訳（メタデータ） (2020-11-02T17:07:17Z)
Filling the Gap of Utterance-aware and Speaker-aware Representation for Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文参考訳（メタデータ） (2020-09-14T15:07:19Z)
Design Choices for X-vector Based Speaker Anonymization [48.46018902334472]
第1回VoicePrivacy Challengeのベースラインとして,フレキシブルな擬似話者選択手法を提案する。 LibriSpeechから派生したデータセットを使用して実験を行い、プライバシとユーティリティの観点から設計選択の最適な組み合わせを見つける。
論文参考訳（メタデータ） (2020-05-18T11:32:14Z)
Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文参考訳（メタデータ） (2020-04-13T17:16:56Z)
Improving speaker discrimination of target speech extraction with time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。 SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文参考訳（メタデータ） (2020-01-23T05:36:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。