論文の概要: Investigating self-supervised representations for audio-visual deepfake detection
- arxiv url: http://arxiv.org/abs/2511.17181v1
- Date: Fri, 21 Nov 2025 12:04:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.001417
- Title: Investigating self-supervised representations for audio-visual deepfake detection
- Title(参考訳): 音声・視覚的ディープフェイク検出のための自己教師型表現の検討
- Authors: Dragos-Alexandru Boldisor, Stefan Smeu, Dan Oneata, Elisabeta Oneata,
- Abstract要約: 自己監督型表現は視覚や音声のタスクに優れるが、ディープフェイク検出の可能性はまだ未解明である。
モーダル性(オーディオ、ビデオ、マルチモーダル)とドメイン(リップムーブメント、ジェネリックビジュアルコンテンツ)で評価する。
自己管理機能の多くは, ディープフェイク関連情報を捉えており, この情報は相補的であることがわかった。
- 参考スコア(独自算出の注目度): 8.86239184578671
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Self-supervised representations excel at many vision and speech tasks, but their potential for audio-visual deepfake detection remains underexplored. Unlike prior work that uses these features in isolation or buried within complex architectures, we systematically evaluate them across modalities (audio, video, multimodal) and domains (lip movements, generic visual content). We assess three key dimensions: detection effectiveness, interpretability of encoded information, and cross-modal complementarity. We find that most self-supervised features capture deepfake-relevant information, and that this information is complementary. Moreover, models primarily attend to semantically meaningful regions rather than spurious artifacts. Yet none generalize reliably across datasets. This generalization failure likely stems from dataset characteristics, not from the features themselves latching onto superficial patterns. These results expose both the promise and fundamental challenges of self-supervised representations for deepfake detection: while they learn meaningful patterns, achieving robust cross-domain performance remains elusive.
- Abstract(参考訳): 多くの視覚・音声タスクにおいて自己監督的表現は優れているが、音声・視覚深度検出の可能性はいまだ探索されていない。
これらの特徴を分離したり、複雑なアーキテクチャに埋もれたりした以前の作業とは異なり、私たちはこれらを、モーダル(オーディオ、ビデオ、マルチモーダル)とドメイン(リップムーブメント、ジェネリックビジュアルコンテンツ)で体系的に評価します。
我々は,検出の有効性,符号化された情報の解釈可能性,モーダルな相補性という3つの重要な側面を評価する。
自己管理機能の多くは, ディープフェイク関連情報を捉えており, この情報は相補的であることがわかった。
さらに、モデルは主に刺激的なアーティファクトではなく、意味論的に意味のある領域に属します。
しかし、データセット間で確実に一般化することはない。
この一般化の失敗はおそらくデータセットの特徴によるもので、表面パターンにラッチする特徴に起因していない。
これらの結果は、ディープフェイク検出のための自己教師型表現の約束と基本的課題の両方を明らかにしている。
関連論文リスト
- LLMs Are Not Yet Ready for Deepfake Image Detection [8.364956401923108]
視覚言語モデル(VLM)は、様々な領域にまたがる有望なツールとして登場した。
本研究は, ファスワップ, 再現, 合成生成の3つの主要なディープフェイクタイプに焦点を当てた。
解析の結果、VLMはコヒーレントな説明を生成でき、表面レベルの異常を検出できるが、スタンドアロン検出システムとしてはまだ信頼できないことが示唆された。
論文 参考訳(メタデータ) (2025-06-12T08:27:24Z) - Oh-A-DINO: Understanding and Enhancing Attribute-Level Information in Self-Supervised Object-Centric Representations [9.949149600332836]
自己教師付き視覚モデルとスロットベース表現はエッジ由来の幾何学の同定に優れるが、幾何学的でない表面レベルの手がかりを保存できない。
VAE正則化はコンパクトで不整合なオブジェクト中心の表現を強制し、これらの欠落した属性を復元する。
論文 参考訳(メタデータ) (2025-03-12T21:57:41Z) - Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。
オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。
本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T18:45:01Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Deepfake Detection via Joint Unsupervised Reconstruction and Supervised
Classification [25.84902508816679]
本稿では,再建作業と分類作業を同時に行うディープフェイク検出手法を提案する。
この方法は、あるタスクによって学習された情報を他のタスクと共有する。
提案手法は,一般的に使用されている3つのデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-11-24T05:44:26Z) - Finding Facial Forgery Artifacts with Parts-Based Detectors [73.08584805913813]
顔の個々の部分に焦点を絞った一連の偽造検知システムを設計する。
これらの検出器を用いて、FaceForensics++、Celeb-DF、Facebook Deepfake Detection Challengeデータセットの詳細な実験分析を行う。
論文 参考訳(メタデータ) (2021-09-21T16:18:45Z) - Multi-attentional Deepfake Detection [79.80308897734491]
ディープフェイクによる顔の偽造はインターネットに広まり、深刻な社会的懸念を引き起こしている。
新たなマルチアテンテーショナルディープフェイク検出ネットワークを提案する。
具体的には,1)ネットワークを異なる局所的部分へ配置するための複数の空間的注意ヘッド,2)浅い特徴の微妙なアーティファクトをズームするテクスチャ的特徴拡張ブロック,3)低レベルなテクスチャ特徴と高レベルなセマンティクス特徴をアグリゲートする,の3つの構成要素からなる。
論文 参考訳(メタデータ) (2021-03-03T13:56:14Z) - Laplacian Denoising Autoencoder [114.21219514831343]
本稿では,新しいタイプの自動符号化器を用いてデータ表現を学習することを提案する。
勾配領域における潜伏クリーンデータを破損させて雑音入力データを生成する。
いくつかのビジュアルベンチマークの実験では、提案されたアプローチでより良い表現が学べることが示されている。
論文 参考訳(メタデータ) (2020-03-30T16:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。