論文の概要: WavShape: Information-Theoretic Speech Representation Learning for Fair and Privacy-Aware Audio Processing
- arxiv url: http://arxiv.org/abs/2506.22789v1
- Date: Sat, 28 Jun 2025 07:03:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.568423
- Title: WavShape: Information-Theoretic Speech Representation Learning for Fair and Privacy-Aware Audio Processing
- Title(参考訳): WavShape: 公正かつプライバシに配慮した音声処理のための情報理論音声表現学習
- Authors: Oguzhan Baser, Ahmet Ege Tanriverdi, Kaan Kale, Sandeep P. Chinchali, Sriram Vishwanath,
- Abstract要約: WavShapeは情報理論による音声表現学習フレームワークである。
タスク関連情報を保存しながら、公平さとプライバシーのために埋め込みを最適化するWavShapeを提案する。
- 参考スコア(独自算出の注目度): 5.227178201577914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech embeddings often retain sensitive attributes such as speaker identity, accent, or demographic information, posing risks in biased model training and privacy leakage. We propose WavShape, an information-theoretic speech representation learning framework that optimizes embeddings for fairness and privacy while preserving task-relevant information. We leverage mutual information (MI) estimation using the Donsker-Varadhan formulation to guide an MI-based encoder that systematically filters sensitive attributes while maintaining speech content essential for downstream tasks. Experimental results on three known datasets show that WavShape reduces MI between embeddings and sensitive attributes by up to 81% while retaining 97% of task-relevant information. By integrating information theory with self-supervised speech models, this work advances the development of fair, privacy-aware, and resource-efficient speech systems.
- Abstract(参考訳): 音声埋め込みは、話者のアイデンティティ、アクセント、人口統計情報などのセンシティブな属性を保持し、バイアス付きモデルのトレーニングやプライバシー漏洩のリスクを負う。
タスク関連情報を保存しながら、公平性とプライバシのための埋め込みを最適化する情報理論型音声表現学習フレームワークであるWavShapeを提案する。
我々は、ドンスカー・バラダンの定式化を用いた相互情報(MI)推定を利用して、下流タスクに不可欠な音声コンテンツを維持しながら、センシティブな属性を体系的にフィルタリングするMIベースのエンコーダを誘導する。
3つの既知のデータセットの実験結果によると、WavShapeは、タスク関連情報の97%を保持しながら、埋め込みと機密属性の間のMIを最大81%削減する。
情報理論と自己教師型音声モデルを統合することにより、公正でプライバシーに配慮した資源効率の高い音声システムの開発が進められる。
関連論文リスト
- Universal Semantic Disentangled Privacy-preserving Speech Representation Learning [16.917963836216845]
ユニバーサル音声コーデックを用いた話者プライバシ保護表現学習手法を提案する。
我々は,USCのセマンティック表現が,潜在的に識別可能な話者属性を除去しつつ,内容,韻律,感情を保存していることを示す。
論文 参考訳(メタデータ) (2025-05-19T13:19:49Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Differentially Private Speaker Anonymization [44.90119821614047]
実世界の発話を共有することが、音声ベースのサービスのトレーニングと展開の鍵となる。
話者匿名化は、言語的および韻律的属性をそのまま残しながら、発話から話者情報を除去することを目的としている。
言語的属性と韻律的属性は依然として話者情報を含んでいる。
論文 参考訳(メタデータ) (2022-02-23T23:20:30Z) - Attribute Inference Attack of Speech Emotion Recognition in Federated
Learning Settings [56.93025161787725]
Federated Learning(FL)は、クライアントをコーディネートして、ローカルデータを共有せずにモデルを協調的にトレーニングする分散機械学習パラダイムである。
本稿では,共有勾配やモデルパラメータからクライアントの機密属性情報を推測する属性推論攻撃フレームワークを提案する。
FLを用いて学習したSERシステムに対して,属性推論攻撃が達成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-26T16:50:42Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Adversarial Disentanglement of Speaker Representation for
Attribute-Driven Privacy Preservation [17.344080729609026]
話者音声表現における属性駆動プライバシー保存の概念について紹介する。
これにより、悪意のあるインターセプターやアプリケーションプロバイダに1つ以上の個人的な側面を隠すことができる。
本稿では,話者属性の音声表現に絡み合った逆自動符号化手法を提案し,その隠蔽を可能にする。
論文 参考訳(メタデータ) (2020-12-08T14:47:23Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Adversarial representation learning for private speech generation [0.5924780594614675]
本稿では、音声データ中の特定の感度属性を難読化することを学ぶGAN(Generative Adversarial Network)に基づくモデルを提案する。
我々は、発話の意味を保ちながら、データに機密情報を隠蔽することを学ぶモデルを訓練する。
実用性やリアリズムを維持するために,新たなデータを生成することによって,性別などのセンシティブな情報を隠蔽することができることを示す。
論文 参考訳(メタデータ) (2020-06-16T12:44:35Z) - TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework
for Deep Learning with Anonymized Intermediate Representations [49.20701800683092]
本稿では,匿名化中間表現を用いたタスク非依存型プライバシ参照データクラウドソーシングフレームワークTIPRDCを提案する。
このフレームワークの目的は、中間表現からプライバシー情報を隠蔽できる機能抽出器を学習することであり、データコレクターの生データに埋め込まれた元の情報を最大限に保持し、未知の学習タスクを達成することである。
論文 参考訳(メタデータ) (2020-05-23T06:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。