論文の概要: Addressing Gradient Misalignment in Data-Augmented Training for Robust Speech Deepfake Detection
- arxiv url: http://arxiv.org/abs/2509.20682v1
- Date: Thu, 25 Sep 2025 02:31:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.664541
- Title: Addressing Gradient Misalignment in Data-Augmented Training for Robust Speech Deepfake Detection
- Title(参考訳): ロバスト音声ディープフェイク検出のためのデータ強化訓練における段階的ミスアライメントの対応
- Authors: Duc-Tuan Truong, Tianchi Liu, Junjie Li, Ruijie Tao, Kong Aik Lee, Eng Siong Chng,
- Abstract要約: 音声ディープフェイク検出(SDD)のための勾配アライメントを用いたデュアルパスデータ拡張(DPDA)トレーニングフレームワークを提案する。
本フレームワークでは,各学習発話を2つの入力経路で処理する。
In-the-Wildデータセットの誤差率は,ベースラインと比較して最大18.69%減少する。
- 参考スコア(独自算出の注目度): 60.515439134387755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In speech deepfake detection (SDD), data augmentation (DA) is commonly used to improve model generalization across varied speech conditions and spoofing attacks. However, during training, the backpropagated gradients from original and augmented inputs may misalign, which can result in conflicting parameter updates. These conflicts could hinder convergence and push the model toward suboptimal solutions, thereby reducing the benefits of DA. To investigate and address this issue, we design a dual-path data-augmented (DPDA) training framework with gradient alignment for SDD. In our framework, each training utterance is processed through two input paths: one using the original speech and the other with its augmented version. This design allows us to compare and align their backpropagated gradient directions to reduce optimization conflicts. Our analysis shows that approximately 25% of training iterations exhibit gradient conflicts between the original inputs and their augmented counterparts when using RawBoost augmentation. By resolving these conflicts with gradient alignment, our method accelerates convergence by reducing the number of training epochs and achieves up to an 18.69% relative reduction in Equal Error Rate on the In-the-Wild dataset compared to the baseline.
- Abstract(参考訳): 音声深度検出(SDD)では、データ拡張(DA)は様々な音声条件やスプーフィング攻撃のモデル一般化を改善するために一般的に用いられる。
しかし、トレーニング中は、元の入力と強化された入力からのバックプロパゲート勾配が誤認され、パラメータの更新が矛盾する可能性がある。
これらの対立は収束を妨げ、モデルを最適以下の解へと押し上げ、DAの利点を減らした。
この問題を調査・解決するために、SDDのための勾配アライメントを備えた2経路データ拡張(DPDA)トレーニングフレームワークを設計する。
本フレームワークでは,各学習発話を2つの入力経路で処理する。
この設計により、最適化競合を減らすために、バックプロパゲーションの勾配方向を比較調整できる。
分析の結果,RawBoost拡張を用いた場合,トレーニングイテレーションの約25%は,元の入力値と拡張入力値との勾配の衝突を示すことがわかった。
これらの矛盾を勾配アライメントで解消することにより、トレーニングエポックの数を減らし収束を加速し、ベースラインと比較してWildデータセット上の等誤差率を最大18.69%減少させる。
関連論文リスト
- Suppressing Gradient Conflict for Generalizable Deepfake Detection [13.33948815738503]
本稿では,2つの相乗的モジュールによる勾配競合を明示的に緩和するCS-DFDフレームワークを提案する。
複数のディープフェイクベンチマークの実験により、CS-DFDはドメイン内検出精度とクロスドメインの一般化の両方において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-07-29T06:48:22Z) - ADT: Tuning Diffusion Models with Adversarial Supervision [16.974169058917443]
拡散モデルは、真のデータ分布を近似するために前方ノイズ発生過程を反転させることで、優れた画像生成を実現している。
本稿では、最適化中の推論プロセスを刺激し、最終的な出力をトレーニングデータと整合させるために、Adrial Diffusion Tuning (ADT)を提案する。
ADTは、固定されたトレーニング済みのバックボーンと軽量なトレーニング可能なパラメータを備えたシアム-ネットワーク識別器を備えている。
論文 参考訳(メタデータ) (2025-04-15T17:37:50Z) - Implicit Counterfactual Data Augmentation for Robust Learning [24.795542869249154]
本研究では, 突発的相関を除去し, 安定した予測を行うために, インプリシト・カウンセショナル・データ拡張法を提案する。
画像とテキストのデータセットをカバーする様々なバイアス付き学習シナリオで実験が行われてきた。
論文 参考訳(メタデータ) (2023-04-26T10:36:40Z) - Balance is Essence: Accelerating Sparse Training via Adaptive Gradient
Correction [29.61757744974324]
ディープニューラルネットワークでは、メモリと計算コストが大幅に削減される。
スパーストレーニングは、これらのコストを削減する最も一般的な手法の1つである。
本研究では,この問題を克服し,時空協調効率の実現を目指す。
論文 参考訳(メタデータ) (2023-01-09T18:50:03Z) - Scaling Multimodal Pre-Training via Cross-Modality Gradient
Harmonization [68.49738668084693]
自己教師付き事前学習は、最近、大規模マルチモーダルデータで成功している。
クロスモダリティアライメント(CMA)は、弱くノイズの多い監視である。
CMAは、モダリティ間の衝突や偏見を引き起こす可能性がある。
論文 参考訳(メタデータ) (2022-11-03T18:12:32Z) - Efficient and Effective Augmentation Strategy for Adversarial Training [48.735220353660324]
ディープニューラルネットワークの敵対的トレーニングは、標準トレーニングよりもはるかにデータ処理が難しいことが知られている。
本稿では,DAJAT(Diverse Augmentation-based Joint Adversarial Training)を提案する。
論文 参考訳(メタデータ) (2022-10-27T10:59:55Z) - Guided Interpolation for Adversarial Training [73.91493448651306]
トレーニングが進むにつれて、トレーニングデータは徐々に攻撃しやすくなり、堅牢性の向上が損なわれる。
本稿では,前時代のメタ情報を用いて,データの逆変換をガイドするguided framework(gif)を提案する。
バニラミキサアップと比較すると、GIFは攻撃可能なデータの比率を高くすることができ、堅牢性向上に有効である。
論文 参考訳(メタデータ) (2021-02-15T03:55:08Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。