論文の概要: Continual Speaker Identity Unlearning with Minimal Interference
- arxiv url: http://arxiv.org/abs/2605.25962v1
- Date: Mon, 25 May 2026 15:40:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.440518
- Title: Continual Speaker Identity Unlearning with Minimal Interference
- Title(参考訳): 最小干渉を用いた連続話者識別学習
- Authors: Jinju Kim, Yunsung Kang, Gyeong-Moon Park, Jong Hwan Ko,
- Abstract要約: 機械学習は、事前訓練されたモデルから指定された概念や知識を取り除く。
しかし、既存の方法は、学習されていないすべてのリクエストが同時にやってくることを静かに仮定する。
この仮定は最先端の手法を破り、未学習が排除することを目的とした、非常にプライバシー上のリスクを再導入することを示している。
- 参考スコア(独自算出の注目度): 28.890263474409696
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Machine unlearning removes designated concepts or knowledge from pre-trained models. Recent work has extended this paradigm to speaker identity unlearning in zero-shot text-to-speech (ZS-TTS), the task of selectively erasing a model's ability to replicate a speaker's voice. Existing methods, however, quietly assume all unlearning requests arrive at once; an unrealistic assumption, since privacy-motivated removals arrive sequentially over time. We show this assumption breaks state-of-the-art methods: unlearning each new speaker fully revives previously unlearned speakers, reintroducing the very privacy risk unlearning was meant to eliminate. We present Cumulative ORThogonal Identity Suppression (CORTIS), the first framework for continual speaker identity unlearning in ZS-TTS that requires no access to previously-unlearned speaker data. CORTIS combines Fisher-information-based parameter masking, which localizes updates to speaker-relevant weights, with orthogonal projection against subspaces spanned by prior unlearning updates. With VoiceBox, CORTIS unlearns each requested speaker while keeping previously unlearned speakers forgotten across long request sequences, substantially outperforming sequential application of prior methods. The demo is available at https://cumulativeortis.github.io/ .
- Abstract(参考訳): 機械学習は、事前訓練されたモデルから指定された概念や知識を取り除く。
最近の研究は、モデルが話者の声を再現する能力を選択的に消去するタスクであるゼロショットテキスト音声(ZS-TTS)における話者同一性学習まで、このパラダイムを拡張している。
しかし、既存の方法では、すべての未学習要求が一度に届くと静かに仮定している。
この仮定は、最先端の手法を破るものだ。新しい話者を学習するたびに、未学習の話者が完全に復活し、未学習が排除されるという非常にプライバシーのリスクを再導入する。
本稿では,ZS-TTSにおける連続話者識別を非学習する最初のフレームワークであるCORTIS(Cumulative ORThogonal Identity Suppression)を提案する。
CORTISは、話者関連重みへの更新をローカライズするFisher-informationベースのパラメータマスキングと、事前の未学習更新によってカバーされるサブスペースに対する直交投影を組み合わせたものだ。
VoiceBoxでは、CORTISは要求された各話者を解放し、未学習の話者は長い要求シーケンスで忘れられ、以前の手法のシーケンシャルな適用を大幅に上回っている。
デモはhttps://cumulativeortis.github.io/で公開されている。
関連論文リスト
- UAF: A Unified Audio Front-end LLM for Full-Duplex Speech Interaction [7.775050285048427]
音声アシスタントは人間のような会話システムに向けて人工的な伝播を駆動しています。
音声活動検出(VAD)やターンテイク検出(TD)といったフロントエンドコンポーネントは、音声アシスタントにとって不可欠である。
本報告では, フルグレッシブ音声システムに適した初の統合音声フロントエンド LLM (UAF) を提案する。
論文 参考訳(メタデータ) (2026-04-21T08:24:55Z) - Still Between Us? Evaluating and Improving Voice Assistant Robustness to Third-Party Interruptions [52.45054413627452]
TPI-Trainは、話者認識型ハードネガティブで設計された88Kインスタンスのデータセットで、割り込み処理のための音響キュー優先順位付けを強制する。
TPI-Benchは、割り込み処理戦略を厳格に測定するために設計された総合的な評価フレームワークである。
論文 参考訳(メタデータ) (2026-04-19T10:03:42Z) - Do Not Mimic My Voice: Speaker Identity Unlearning for Zero-Shot Text-to-Speech [17.20822861589935]
ZS-TTSは、最小限のオーディオキューから高忠実な音声合成を可能にし、プライバシーと倫理上の懸念を生じさせた。
音声のプライバシーに対する脅威にもかかわらず、望ましくない個々の声を複製する知識を選択的に除去する研究は行われていない。
我々は、ZS-TTSのための最初の機械学習フレームワーク、特にTGU(Teacher-Guided Unlearning)を提案する。
提案手法は,未知の話者が追跡不能であることを保証するため,話者の音声が一貫した複製されないようにランダム性を組み込む。
論文 参考訳(メタデータ) (2025-07-27T06:13:58Z) - Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
音声認識のための自己教師付き連続学習手法を提案する。
文献からのメモリ拡張型ASRモデルを用いて、スライドから新しい単語を復号する。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Continual Speaker Adaptation for Text-to-Speech Synthesis [2.3224617218247126]
本稿では,連続学習の観点からのTSモデリングについて考察する。
目標は、以前のスピーカーを忘れずに新しいスピーカーを追加することです。
経験リプレイと重みの規則化という2つのよく知られた手法を連続学習に活用する。
論文 参考訳(メタデータ) (2021-03-26T15:14:20Z) - Voice Cloning: a Multi-Speaker Text-to-Speech Synthesis Approach based
on Transfer Learning [0.802904964931021]
提案手法は,マルチスピーカ音響空間をモデル化可能なシステムを実現するために,これらの制約を克服することを目的としている。
これにより、訓練期間中に観測されていなくても、異なる話者の声に似た音声を生成することができる。
論文 参考訳(メタデータ) (2021-02-10T18:43:56Z) - End-to-End Neural Diarization: Reformulating Speaker Diarization as
Simple Multi-label Classification [45.38809571153867]
本稿では,ニューラルネットワークが直接話者ダイアリゼーション結果を出力するエンド・ツー・エンド・ニューラルダイアリゼーション(EEND)を提案する。
話者セグメントラベルとマルチスピーカ記録を連携させることにより,本モデルは実際の会話に容易に適応できる。
論文 参考訳(メタデータ) (2020-02-24T14:53:32Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。