論文の概要: PhonemeFake: Redefining Deepfake Realism with Language-Driven Segmental Manipulation and Adaptive Bilevel Detection
- arxiv url: http://arxiv.org/abs/2506.22783v1
- Date: Sat, 28 Jun 2025 06:56:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.564245
- Title: PhonemeFake: Redefining Deepfake Realism with Language-Driven Segmental Manipulation and Adaptive Bilevel Detection
- Title(参考訳): PhonemeFake: 言語駆動型セグメンショナルマニピュレーションとアダプティブバイレベル検出によるディープフェイクリアリズムの再定義
- Authors: Oguzhan Baser, Ahmet Ege Tanriverdi, Sriram Vishwanath, Sandeep P. Chinchali,
- Abstract要約: PhonemeFake (PF) は、言語推論を用いて重要な音声セグメントを操作するDF攻撃である。
PFは人間の知覚を最大42%減少させ、ベンチマーク精度を最大94%低下させる。
- 参考スコア(独自算出の注目度): 5.538800723251976
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deepfake (DF) attacks pose a growing threat as generative models become increasingly advanced. However, our study reveals that existing DF datasets fail to deceive human perception, unlike real DF attacks that influence public discourse. It highlights the need for more realistic DF attack vectors. We introduce PhonemeFake (PF), a DF attack that manipulates critical speech segments using language reasoning, significantly reducing human perception by up to 42% and benchmark accuracies by up to 94%. We release an easy-to-use PF dataset on HuggingFace and open-source bilevel DF segment detection model that adaptively prioritizes compute on manipulated regions. Our extensive experiments across three known DF datasets reveal that our detection model reduces EER by 91% while achieving up to 90% speed-up, with minimal compute overhead and precise localization beyond existing models as a scalable solution.
- Abstract(参考訳): ディープフェイク(DF)攻撃は、生成モデルがますます進歩するにつれて脅威が増大する。
しかし,本研究では,既存のDFデータセットが,公衆の言論に影響を及ぼす実際のDF攻撃とは異なり,人間の知覚を欺くことができないことを明らかにした。
より現実的なDF攻撃ベクトルの必要性を強調している。
我々は、言語推論を用いて重要な音声セグメントを操作するDF攻撃であるPhonemeFake(PF)を導入し、人間の知覚を最大42%減少させ、ベンチマーク精度を最大94%低下させる。
我々は,HuggingFace上の使いやすいPFデータセットと,操作された領域での計算を適応的に優先度付けするオープンソースの2レベルDFセグメント検出モデルをリリースする。
3つのDFデータセットにわたる大規模な実験により、私たちの検出モデルはEERを最大91%削減し、最大90%のスピードアップを実現し、計算オーバーヘッドを最小化し、スケーラブルなソリューションとして既存のモデルを超えた正確なローカライゼーションを実現しています。
関連論文リスト
- Practical Manipulation Model for Robust Deepfake Detection [55.2480439325792]
画像超解像領域において,より現実的な劣化モデルを構築した。
擬似フェイクの空間を、ポアソンブレンディング、より多様なマスク、ジェネレータアーティファクト、およびイントラクタを用いて拡張する。
DFDCデータセットとDFDCPデータセットでは、それぞれ3.51%$と6.21%$AUCが明らかに増加した。
論文 参考訳(メタデータ) (2025-06-05T15:06:16Z) - No Query, No Access [50.18709429731724]
被害者のテキストのみを使用して動作する textbfVictim Data-based Adrial Attack (VDBA) を導入する。
被害者モデルへのアクセスを防止するため、公開されている事前トレーニングモデルとクラスタリングメソッドを備えたシャドウデータセットを作成します。
EmotionとSST5データセットの実験によると、VDBAは最先端の手法より優れており、ASRの改善は52.08%である。
論文 参考訳(メタデータ) (2025-05-12T06:19:59Z) - Protecting multimodal large language models against misleading visualizations [94.71976205962527]
この結果から,誤解を招く可視化に対する質問応答(QA)の精度が,ランダムなベースラインのレベルに平均で低下していることが示唆された。
本研究では,非ミスリーディングの精度を損なうことなく,誤解を招くビジュアライゼーションにおけるQA性能を改善するための最初の推論時間手法を提案する。
テーブルベースのQAと視覚化を再描画する2つの方法が有効であり、最大19.6ポイントの改善が期待できる。
論文 参考訳(メタデータ) (2025-02-27T20:22:34Z) - Standing on the Shoulders of Giants: Reprogramming Visual-Language Model for General Deepfake Detection [16.21235742118949]
本稿では,よく訓練された視覚言語モデル(VLM)を一般深度検出に活用する手法を提案する。
入力摂動によってモデル予測を操作するモデル再プログラミングパラダイムにより,本手法はトレーニング済みのVLMモデルを再プログラムすることができる。
いくつかの人気のあるベンチマークデータセットの実験では、ディープフェイク検出のクロスデータセットとクロスマニピュレーションのパフォーマンスが大幅に改善できることが示されている。
論文 参考訳(メタデータ) (2024-09-04T12:46:30Z) - CLIPping the Deception: Adapting Vision-Language Models for Universal
Deepfake Detection [3.849401956130233]
広汎な深度検出のための最近の適応手法と組み合わせた事前学習型視覚言語モデル(VLM)の有効性について検討する。
ディープフェイク検出にCLIPを適用するために、単一のデータセット(ProGAN)のみを使用します。
シンプルで軽量なPrompt Tuningベースの適応戦略は、以前のSOTAアプローチよりも5.01% mAPと6.61%の精度で優れている。
論文 参考訳(メタデータ) (2024-02-20T11:26:42Z) - Real Face Foundation Representation Learning for Generalized Deepfake
Detection [74.4691295738097]
ディープフェイク技術の出現は、個人のプライバシーと公共の安全に脅威をもたらすため、社会的な問題となっている。
十分な偽の顔を集めることはほぼ不可能であり、既存の検出器があらゆる種類の操作に一般化することは困難である。
本稿では,大規模な実顔データセットから一般表現を学習することを目的としたリアルフェイスファウンデーション表現学習(RFFR)を提案する。
論文 参考訳(メタデータ) (2023-03-15T08:27:56Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。