Fugu-MT 論文翻訳(概要): Characterizing the temporal dynamics of universal speech representations for generalizable deepfake detection

論文の概要: Characterizing the temporal dynamics of universal speech representations for generalizable deepfake detection

arxiv url: http://arxiv.org/abs/2309.08099v1
Date: Fri, 15 Sep 2023 01:37:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-18 16:25:38.553049
Title: Characterizing the temporal dynamics of universal speech representations for generalizable deepfake detection
Title（参考訳）: 一般化可能なディープフェイク検出のための普遍音声表現の時間ダイナミクスの特徴付け
Authors: Yi Zhu, Saurabh Powar, and Tiago H. Falk
Abstract要約: 既存のディープフェイク音声検出システムは、目に見えない攻撃に対する一般化性に欠ける。近年,この問題に対処するための普遍的な音声表現の活用が検討されている。これらの表現の長期的時間的ダイナミクスを特徴付けることは、一般化可能性に不可欠である。
参考スコア（独自算出の注目度）: 14.449940985934388
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing deepfake speech detection systems lack generalizability to unseen attacks (i.e., samples generated by generative algorithms not seen during training). Recent studies have explored the use of universal speech representations to tackle this issue and have obtained inspiring results. These works, however, have focused on innovating downstream classifiers while leaving the representation itself untouched. In this study, we argue that characterizing the long-term temporal dynamics of these representations is crucial for generalizability and propose a new method to assess representation dynamics. Indeed, we show that different generative models generate similar representation dynamics patterns with our proposed method. Experiments on the ASVspoof 2019 and 2021 datasets validate the benefits of the proposed method to detect deepfakes from methods unseen during training, significantly improving on several benchmark methods.
Abstract（参考訳）: 既存のディープフェイク音声検出システムは、見えない攻撃(つまり訓練中に見ない生成アルゴリズムによって生成されたサンプル)の一般化を欠いている。近年,この問題に対処するための普遍的な音声表現の活用を探求し,刺激的な結果を得た。しかし、これらの研究は下流の分類器の革新に焦点を合わせ、表現自体に手を加えないままにしている。本研究では,これらの表現の長期的時間ダイナミクスを特徴付けることは一般化可能性に不可欠であり,表現ダイナミクスを評価する新しい手法を提案する。実際、異なる生成モデルが提案手法で類似表現ダイナミクスパターンを生成することを示す。 2019年と2021年のasvspoofデータセットにおける実験は、トレーニング中に検出されない方法からディープフェイクを検出するための提案手法の利点を検証する。

関連論文リスト

Anomaly Detection and Localization for Speech Deepfakes via Feature Pyramid Matching [8.466707742593078]
音声ディープフェイク(英: Speech Deepfakes)は、ターゲット話者の声を模倣できる合成音声信号である。音声のディープフェイクを検出する既存の方法は教師あり学習に依存している。本稿では,音声深度検出を異常検出タスクとして再設定する,新しい解釈可能な一クラス検出フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-23T11:15:22Z)
Robust Dynamic Facial Expression Recognition [6.626374248579249]
本稿では,硬質試料と雑音試料を区別する頑健な手法を提案する。ビデオの主表現を識別するために、キー表現再サンプリングフレームワークとデュアルストリーム階層ネットワークを提案する。提案手法は,DFER における現状-Of-The-Art 手法より優れていることを示す。
論文参考訳（メタデータ） (2025-02-22T07:48:12Z)
Fake It till You Make It: Curricular Dynamic Forgery Augmentations towards General Deepfake Detection [15.857961926916465]
我々は,textbfCurricular textbfDynamic textbfForgery textbfAugmentation (CDFA)と呼ばれる新しいディープフェイク検出法を提案する。 CDFAは、偽造拡張ポリシーネットワークでディープフェイク検出器を共同で訓練する。そこで本研究では,CDFAが各種難燃性ディープフェイク検出器のクロスデータセットおよびクロスマニピュレーション性能を著しく向上できることを示す。
論文参考訳（メタデータ） (2024-09-22T13:51:22Z)
Standing on the Shoulders of Giants: Reprogramming Visual-Language Model for General Deepfake Detection [16.21235742118949]
本稿では,よく訓練された視覚言語モデル(VLM)を一般深度検出に活用する手法を提案する。データ摂動によるモデル予測を操作するモデル再プログラミングパラダイムにより,本手法は事前学習したVLMモデルを再プログラムすることができる。私たちの優れたパフォーマンスは、トレーニング可能なパラメータのコストを低減し、現実世界のアプリケーションにとって有望なアプローチになります。
論文参考訳（メタデータ） (2024-09-04T12:46:30Z)
UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文参考訳（メタデータ） (2024-07-26T20:51:54Z)
Beyond Silence: Bias Analysis through Loss and Asymmetric Approach in Audio Anti-Spoofing [53.325039475118814]
アンチスプーフィング検出研究の最近のトレンドは、目に見えない攻撃をまたいで一般化するモデルの能力を改善することを目指している。近年の研究では、沈黙の分布は2つのクラスによって異なることが指摘されており、これはショートカットとして機能する。損失分析と非対称手法を用いて、従来の攻撃に焦点を当てた結果指向の評価から遠ざかる。
論文参考訳（メタデータ） (2024-06-25T03:24:12Z)
Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文参考訳（メタデータ） (2024-05-03T15:27:11Z)
Prompting Diffusion Representations for Cross-Domain Semantic Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文参考訳（メタデータ） (2023-07-05T09:28:25Z)
Inverse Dynamics Pretraining Learns Good Representations for Multitask Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。逆動力学モデリングはこの設定に適していると主張する。
論文参考訳（メタデータ） (2023-05-26T14:40:46Z)
Self-supervised Learning of Adversarial Example: Towards Good Generalizations for Deepfake Detection [41.27496491339225]
この研究は、単純な原理から一般化可能なディープフェイク検出に対処する。フォージェリー構成のプールで強化されたフォージェリーを合成することにより、フォージェリーの「多様性」を豊かにすることを提案する。また,現在のモデルに最も難易度の高いフォージェリーを動的に合成するために,敵のトレーニング戦略を用いることを提案する。
論文参考訳（メタデータ） (2022-03-23T05:52:23Z)
Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文参考訳（メタデータ） (2021-07-10T02:13:25Z)
On Contrastive Representations of Stochastic Processes [53.21653429290478]
プロセスの表現を学習することは、機械学習の新たな問題である。本手法は,周期関数,3次元オブジェクト,動的プロセスの表現の学習に有効であることを示す。
論文参考訳（メタデータ） (2021-06-18T11:00:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。