論文の概要: Characterizing the temporal dynamics of universal speech representations
for generalizable deepfake detection
- arxiv url: http://arxiv.org/abs/2309.08099v1
- Date: Fri, 15 Sep 2023 01:37:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 16:25:38.553049
- Title: Characterizing the temporal dynamics of universal speech representations
for generalizable deepfake detection
- Title(参考訳): 一般化可能なディープフェイク検出のための普遍音声表現の時間ダイナミクスの特徴付け
- Authors: Yi Zhu, Saurabh Powar, and Tiago H. Falk
- Abstract要約: 既存のディープフェイク音声検出システムは、目に見えない攻撃に対する一般化性に欠ける。
近年,この問題に対処するための普遍的な音声表現の活用が検討されている。
これらの表現の長期的時間的ダイナミクスを特徴付けることは、一般化可能性に不可欠である。
- 参考スコア(独自算出の注目度): 14.449940985934388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing deepfake speech detection systems lack generalizability to unseen
attacks (i.e., samples generated by generative algorithms not seen during
training). Recent studies have explored the use of universal speech
representations to tackle this issue and have obtained inspiring results. These
works, however, have focused on innovating downstream classifiers while leaving
the representation itself untouched. In this study, we argue that
characterizing the long-term temporal dynamics of these representations is
crucial for generalizability and propose a new method to assess representation
dynamics. Indeed, we show that different generative models generate similar
representation dynamics patterns with our proposed method. Experiments on the
ASVspoof 2019 and 2021 datasets validate the benefits of the proposed method to
detect deepfakes from methods unseen during training, significantly improving
on several benchmark methods.
- Abstract(参考訳): 既存のディープフェイク音声検出システムは、見えない攻撃(つまり訓練中に見ない生成アルゴリズムによって生成されたサンプル)の一般化を欠いている。
近年,この問題に対処するための普遍的な音声表現の活用を探求し,刺激的な結果を得た。
しかし、これらの研究は下流の分類器の革新に焦点を合わせ、表現自体に手を加えないままにしている。
本研究では,これらの表現の長期的時間ダイナミクスを特徴付けることは一般化可能性に不可欠であり,表現ダイナミクスを評価する新しい手法を提案する。
実際、異なる生成モデルが提案手法で類似表現ダイナミクスパターンを生成することを示す。
2019年と2021年のasvspoofデータセットにおける実験は、トレーニング中に検出されない方法からディープフェイクを検出するための提案手法の利点を検証する。
関連論文リスト
- What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - Diffusion Model as Representation Learner [86.09969334071478]
Diffusion Probabilistic Models (DPMs) は、最近、様々な生成タスクにおいて顕著な結果を示した。
本稿では,DPMが獲得した知識を認識タスクに活用する新しい知識伝達手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T00:38:39Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Self-supervised Learning of Adversarial Example: Towards Good
Generalizations for Deepfake Detection [41.27496491339225]
この研究は、単純な原理から一般化可能なディープフェイク検出に対処する。
フォージェリー構成のプールで強化されたフォージェリーを合成することにより、フォージェリーの「多様性」を豊かにすることを提案する。
また,現在のモデルに最も難易度の高いフォージェリーを動的に合成するために,敵のトレーニング戦略を用いることを提案する。
論文 参考訳(メタデータ) (2022-03-23T05:52:23Z) - Measuring disentangled generative spatio-temporal representation [9.264758623908813]
我々は2つの最先端の非絡み合い表現学習手法を採用し、これらを3つの大規模公共時間データセットに適用する。
学習した表現の変数を記述するために,本手法が現実世界のセマンティクスの発見に有効であることが判明した。
論文 参考訳(メタデータ) (2022-02-10T03:57:06Z) - A Latent-Variable Model for Intrinsic Probing [94.61336186402615]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Improving Pseudo-label Training For End-to-end Speech Recognition Using
Gradient Mask [7.807021847783367]
本稿では,エンド・ツー・エンドの音声認識モデルに対するアイデアを組み合わせるための新しいアプローチを提案する。
余分な損失関数がなければ、グラディエントマスクを使用して擬似ラベルのトレーニング時にモデルを最適化する。
半教師付き実験では、擬似ラベルの学習時のモデル性能を向上させることができる。
論文 参考訳(メタデータ) (2021-10-08T12:05:25Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z) - On Contrastive Representations of Stochastic Processes [53.21653429290478]
プロセスの表現を学習することは、機械学習の新たな問題である。
本手法は,周期関数,3次元オブジェクト,動的プロセスの表現の学習に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-18T11:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。