論文の概要: Speech Unlearning
- arxiv url: http://arxiv.org/abs/2506.00848v1
- Date: Sun, 01 Jun 2025 06:04:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.699525
- Title: Speech Unlearning
- Title(参考訳): 音声のアンラーニング
- Authors: Jiali Cheng, Hadi Amiri,
- Abstract要約: 音声タスクのための機械学習を導入し,新しい研究課題について紹介する。
本研究の目的は、訓練された音声モデルから特定のデータの影響を、完全に再訓練することなく効率的に効果的に除去することである。
プライバシー保護、時代遅れまたはノイズの多いデータの削除、バイアス軽減に重要な応用がある。
- 参考スコア(独自算出の注目度): 14.755831733659699
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce machine unlearning for speech tasks, a novel and underexplored research problem that aims to efficiently and effectively remove the influence of specific data from trained speech models without full retraining. This has important applications in privacy preservation, removal of outdated or noisy data, and bias mitigation. While machine unlearning has been studied in computer vision and natural language processing, its application to speech is largely unexplored due to the high-dimensional, sequential, and speaker-dependent nature of speech data. We define two fundamental speech unlearning tasks: sample unlearning, which removes individual data points (e.g., a voice recording), and class unlearning, which removes an entire category (e.g., all data from a speaker), while preserving performance on the remaining data. Experiments on keyword spotting and speaker identification demonstrate that unlearning speech data is significantly more challenging than unlearning image or text data. We conclude with key future directions in this area, including structured training, robust evaluation, feature-level unlearning, broader applications, scalable methods, and adversarial robustness.
- Abstract(参考訳): 完全再訓練をせずに、訓練された音声モデルから特定のデータの影響を効果的かつ効果的に除去することを目的とした、新規で未探索な研究課題である、音声タスクのための機械学習を導入する。
これは、プライバシー保護、時代遅れまたはノイズの多いデータの削除、バイアス軽減において重要な応用である。
機械学習はコンピュータビジョンや自然言語処理において研究されているが、高次元、シーケンシャル、話者に依存した音声データの性質のため、その音声への応用は明らかにされていない。
サンプル・アンラーニング(サンプル・アンラーニング)は個々のデータポイント(例えば音声記録)を抽出し、クラス・アンラーニングはカテゴリー全体(例えば話者からのデータ全て)を除去し、残りのデータのパフォーマンスを保留する。
キーワードスポッティングと話者識別の実験では、未学習の音声データは未学習の画像やテキストデータよりもはるかに難しいことが示されている。
我々は、構造化トレーニング、堅牢な評価、特徴レベルの未学習、より広範なアプリケーション、スケーラブルなメソッド、敵の堅牢性など、この分野における重要な方向性を結論付けます。
関連論文リスト
- Improving Voice Quality in Speech Anonymization With Just Perception-Informed Losses [0.08155575318208629]
音声匿名化は、話者のアイデンティティを曖昧にしつつ、その後のタスクに重要な情報を保持する必要がある。
本研究は,人間の聴覚システムにインスパイアされた損失関数の重要性を浮き彫りにする。
提案する損失関数はモデルに依存しず,手工芸と深層学習を併用して品質表現を効果的に把握する。
論文 参考訳(メタデータ) (2024-10-20T20:33:44Z) - SPADE: Self-supervised Pretraining for Acoustic DisEntanglement [2.294014185517203]
室内音響を音声から切り離す自己教師型手法を提案する。
提案手法は,ラベル付きトレーニングデータが少ない場合に,ベースライン上での性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-02-03T01:36:38Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Deep Neural Networks for Automatic Speech Processing: A Survey from
Large Corpora to Limited Data [1.2031796234206138]
多くの最先端音声システムはディープニューラルネットワーク(DNN)を使用している。
これらのシステムは大量のデータを学習する必要がある。
我々は、自動音声認識、話者識別、感情認識の3つのタスクに自らを配置する。
論文 参考訳(メタデータ) (2020-03-09T16:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。