論文の概要: AuViRe: Audio-visual Speech Representation Reconstruction for Deepfake Temporal Localization
- arxiv url: http://arxiv.org/abs/2511.18993v1
- Date: Mon, 24 Nov 2025 11:19:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.174919
- Title: AuViRe: Audio-visual Speech Representation Reconstruction for Deepfake Temporal Localization
- Title(参考訳): AuViRe:ディープフェイク時空間定位のための音声・視覚的音声表現再構成
- Authors: Christos Koutlis, Symeon Papadopoulos,
- Abstract要約: 本研究は,AuViRe (AuVisual Speech Representation Reconstruction) を利用したディープフェイクの時間的局所化手法を提案する。
具体的には,一方のモーダル(唇の動きなど)から他方のモーダル(例えば音声波形)に基づいて音声表現を再構成する。
AuViRe は LAV-DF で +8.9 AP@0.95、AV-Deepfake1M で +9.6 AP@0.5、Wild で +5.1 AUC を上回ります。
- 参考スコア(独自算出の注目度): 16.65987092853682
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: With the rapid advancement of sophisticated synthetic audio-visual content, e.g., for subtle malicious manipulations, ensuring the integrity of digital media has become paramount. This work presents a novel approach to temporal localization of deepfakes by leveraging Audio-Visual Speech Representation Reconstruction (AuViRe). Specifically, our approach reconstructs speech representations from one modality (e.g., lip movements) based on the other (e.g., audio waveform). Cross-modal reconstruction is significantly more challenging in manipulated video segments, leading to amplified discrepancies, thereby providing robust discriminative cues for precise temporal forgery localization. AuViRe outperforms the state of the art by +8.9 AP@0.95 on LAV-DF, +9.6 AP@0.5 on AV-Deepfake1M, and +5.1 AUC on an in-the-wild experiment. Code available at https://github.com/mever-team/auvire.
- Abstract(参考訳): 微妙な悪質な操作のための高度なオーディオ・ビジュアルコンテンツの急速な進歩により、デジタルメディアの完全性は最重要視されている。
本研究では,AuViRe (AuVisual Speech Representation Reconstruction) を利用したディープフェイクの時間的局所化手法を提案する。
具体的には,一方のモーダル(例えば唇の動き)から他方のモーダル(例えば音声波形)に基づいて音声表現を再構成する。
クロスモーダル再構成は、操作されたビデオセグメントにおいて著しく困難であり、これにより増幅された相違が生じ、時間的偽造の正確な位置決めのための堅牢な識別的手がかりが提供される。
AuViReは、LAV-DFで+8.9 AP@0.95、AV-Deepfake1Mで+9.6 AP@0.5、Wildで+5.1 AUCを上回っている。
コードはhttps://github.com/mever-team/auvire.comで公開されている。
関連論文リスト
- KLASSify to Verify: Audio-Visual Deepfake Detection Using SSL-based Audio and Handcrafted Visual Features [1.488627850405606]
AV-Deepfake1M 2025チャレンジに対するマルチモーダルアプローチを提案する。
視覚的モダリティには手作りの機能を活用して解釈性と適応性を向上させる。
音声のモダリティには、グラフアテンションネットワークと組み合わせた自己教師付き学習バックボーンを適用し、リッチな音声表現をキャプチャする。
当社のアプローチでは、レジリエンスと潜在的な解釈可能性に重点を置いて、パフォーマンスと実世界のデプロイメントのバランスを取ります。
論文 参考訳(メタデータ) (2025-08-10T13:29:08Z) - Audio-Assisted Face Video Restoration with Temporal and Identity Complementary Learning [56.62425904247682]
各種のストリーミングビデオ歪みに対処するGAVN(General Audio-assisted Face Video Restoration Network)を提案する。
GAVNはまず、低解像度空間におけるフレーム間の時間的特徴をキャプチャし、フレームを粗く復元し、計算コストを節約する。
最後に、再構成モジュールは時間的特徴とアイデンティティ機能を統合し、高品質な顔ビデオを生成する。
論文 参考訳(メタデータ) (2025-08-06T07:38:27Z) - Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。
Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-04T12:50:22Z) - CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment [76.32508013503653]
CAV-MAE Sync は,自己教師型音声視覚学習のためのオリジナルの CAV-MAE フレームワークの簡易かつ効果的な拡張として提案する。
音声をグローバルな表現ではなく,映像フレームに整合した時間的シーケンスとして扱うことで,モダリティ間のミスマッチに対処する。
パッチトークンのセマンティック負荷を低減するための学習可能なレジスタトークンを導入することにより,空間的ローカライゼーションを改善する。
論文 参考訳(メタデータ) (2025-05-02T12:59:58Z) - DiMoDif: Discourse Modality-information Differentiation for Audio-visual Deepfake Detection and Localization [13.840950434728533]
DiMoDifはオーディオ・ビジュアル・ディープフェイク検出フレームワークである。
音声の機械知覚におけるモダリティ間差異を利用する。
時間的にディープフェイクの偽造を特定できる。
論文 参考訳(メタデータ) (2024-11-15T13:47:33Z) - Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language [77.33458847943528]
DenseAVは、ビデオ視聴のみで高解像度、意味論的、音声視覚的に整合した特徴を学習する、新しいデュアルエンコーダ基盤アーキテクチャである。
そこで本研究では,DenseAVによる単語の「意味」と音の「位置」の特定が可能であることを明らかにした。
論文 参考訳(メタデータ) (2024-06-09T03:38:21Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Self-Supervised Learning for Speech Enhancement through Synthesis [5.924928860260821]
そこで本研究では,ボコーダが雑音表現を受け入れ,クリーンな音声を直接合成する方法を学習する,デノナイズドボコーダ(DeVo)アプローチを提案する。
10msのレイテンシとパフォーマンスの低下を最小限に抑えながら,ストリーミングオーディオ上で動作可能な因果バージョンを実証した。
論文 参考訳(メタデータ) (2022-11-04T16:06:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。