論文の概要: Active Light Modulation to Counter Manipulation of Speech Visual Content
- arxiv url: http://arxiv.org/abs/2504.21846v1
- Date: Wed, 30 Apr 2025 17:55:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 17:28:42.776142
- Title: Active Light Modulation to Counter Manipulation of Speech Visual Content
- Title(参考訳): 音声視覚内容の対向操作のための能動光変調
- Authors: Hadleigh Schwartz, Xiaofeng Yan, Charles J. Carver, Xia Zhou,
- Abstract要約: Spotlightは、ライブ音声ビデオを偽造から守るための、低オーバーヘッドで控えめなシステムだ。
Spotlightはイベントサイトでダイナミックな物理的シグネチャを生成し、受信不能な光によってすべてのビデオ記録に埋め込む。
プロトタイプ実験では、SpotlightはAUCs$geq$0.99を達成し、全体的な正の確率はファルシファイドビデオの検出において100%である。
- 参考スコア(独自算出の注目度): 1.471374083774109
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-profile speech videos are prime targets for falsification, owing to their accessibility and influence. This work proposes Spotlight, a low-overhead and unobtrusive system for protecting live speech videos from visual falsification of speaker identity and lip and facial motion. Unlike predominant falsification detection methods operating in the digital domain, Spotlight creates dynamic physical signatures at the event site and embeds them into all video recordings via imperceptible modulated light. These physical signatures encode semantically-meaningful features unique to the speech event, including the speaker's identity and facial motion, and are cryptographically-secured to prevent spoofing. The signatures can be extracted from any video downstream and validated against the portrayed speech content to check its integrity. Key elements of Spotlight include (1) a framework for generating extremely compact (i.e., 150-bit), pose-invariant speech video features, based on locality-sensitive hashing; and (2) an optical modulation scheme that embeds >200 bps into video while remaining imperceptible both in video and live. Prototype experiments on extensive video datasets show Spotlight achieves AUCs $\geq$ 0.99 and an overall true positive rate of 100% in detecting falsified videos. Further, Spotlight is highly robust across recording conditions, video post-processing techniques, and white-box adversarial attacks on its video feature extraction methodologies.
- Abstract(参考訳): 注目される音声ビデオは、そのアクセシビリティと影響のため、ファルシフィケーションの主要なターゲットである。
本研究は,話者の身元と唇と顔の動きの視覚的偽造からライブ音声ビデオを保護する,低オーバーヘッドで控えめなシステムであるSpotlightを提案する。
デジタルドメインで動作する主なファルシフィケーション検出方法とは異なり、Spotlightはイベントサイトで動的な物理的シグネチャを生成し、非知覚的な変調光によってすべてのビデオ記録に埋め込む。
これらの物理的シグネチャは、話者のアイデンティティや顔の動きを含む、音声イベント特有の意味論的意味のある特徴をエンコードし、スプーフィングを防止するために暗号的にセキュアである。
署名は、下流の任意のビデオから抽出され、描写された音声コンテンツに対して検証され、その完全性を確認する。
Spotlightの主な要素は、(1)局所性に敏感なハッシュに基づく極端にコンパクトな(150ビット)ポーズ不変な音声ビデオ特徴を生成するためのフレームワーク、(2)ビデオとライブの両方において知覚できないまま200bpsの動画を埋め込む光学変調スキームである。
広範なビデオデータセットのプロトタイプ実験は、SpotlightがAUCs$\geq$ 0.99を達成し、偽造ビデオの検出において全体の100%正の確率を達成していることを示している。
さらに、Spotlightは記録条件、ビデオ後処理技術、ビデオ特徴抽出手法に対するホワイトボックス攻撃など、非常に堅牢である。
関連論文リスト
- From Faces to Voices: Learning Hierarchical Representations for High-quality Video-to-Speech [26.67378997911053]
本研究の目的は、サイレント・トーキング・フェイス・ビデオから高品質な音声を生成することである。
本稿では,サイレントビデオと多面音声のモダリティギャップを埋める新しい音声合成システムを提案する。
提案手法は,実発話に匹敵する例外的な生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-21T09:02:38Z) - Shushing! Let's Imagine an Authentic Speech from the Silent Video [15.426152742881365]
視覚誘導音声生成は、聴覚信号に頼ることなく、顔の外観や唇の動きから真の音声を生成することを目的としている。
近年の進歩にもかかわらず、既存の手法は視覚的手がかりから意味論、音色、感情的な韻律を横断的に統一するのに苦労している。
ImaginTalkは、視覚入力のみを用いて忠実な音声を生成する新しいクロスモーダル拡散フレームワークである。
論文 参考訳(メタデータ) (2025-03-19T06:28:17Z) - SayAnything: Audio-Driven Lip Synchronization with Conditional Video Diffusion [78.77211425667542]
SayAnythingは、オーディオ入力から唇の動きを直接合成する条件付きビデオ拡散フレームワークである。
我々の新しい設計は、潜在空間における異なる条件信号のバランスを効果的に保ち、外観、動き、地域固有の生成を正確に制御できる。
論文 参考訳(メタデータ) (2025-02-17T07:29:36Z) - MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation [55.95148886437854]
メモリ誘導EMO (Memory-guided EMOtion-aware diffusion) は、音声による映像を生成するエンドツーエンドのポートレートアニメーション手法である。
MEMOは、多様な画像とオーディオタイプ、全体的な品質、オーディオ-リップ同期、アイデンティティの整合性、表現-感情アライメントにおいて、よりリアルな会話ビデオを生成する。
論文 参考訳(メタデータ) (2024-12-05T18:57:26Z) - Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation [54.21476271127356]
Divotは拡散駆動型ビデオトケナイザである。
我々は、ビデオからテキストへの自己回帰とテキストからビデオへの生成を通じてDivot-unaVicを提示する。
論文 参考訳(メタデータ) (2024-12-05T18:53:04Z) - Storyboard guided Alignment for Fine-grained Video Action Recognition [32.02631248389487]
微細なビデオアクション認識は、ビデオテキストマッチング問題として概念化することができる。
i) 異なるグローバルなセマンティクスを持つビデオは、類似したアトミックなアクションや外観を共有し、(ii) ビデオ内のアトミックなアクションは、瞬間的、遅い、あるいは、グローバルなビデオセマンティクスと直接的に関係しない、という2つの観察に基づく多粒度フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-18T07:40:41Z) - Unsupervised Video Highlight Detection by Learning from Audio and Visual Recurrence [13.2968942989609]
手動のアノテーションを不要にしながら、教師なしのビデオハイライト検出に重点を置いている。
クラスタリング手法により、ビデオの擬似カテゴリを特定し、各ビデオの擬似ハイライトスコアを計算する。
また、視覚的特徴を用いて、各ビデオの視覚的擬似ハイライトスコアも計算する。
論文 参考訳(メタデータ) (2024-07-18T23:09:14Z) - DiffV2S: Diffusion-based Video-to-Speech Synthesis with Vision-guided
Speaker Embedding [52.84475402151201]
自己教師付き事前学習モデルと即時チューニング技術を用いた視覚誘導型話者埋め込み抽出器を提案する。
さらに,DiffV2Sと呼ばれる拡散型音声合成モデルを開発し,これらの話者埋め込みと入力ビデオから抽出した視覚表現を条件とした。
実験結果から,DiffV2Sは従来の音声合成技術と比較して最先端性能を実現していることがわかった。
論文 参考訳(メタデータ) (2023-08-15T14:07:41Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Speech2Video: Cross-Modal Distillation for Speech to Video Generation [21.757776580641902]
音声対ビデオ生成技術は、エンターテイメント、カスタマーサービス、人間とコンピュータの相互作用産業に興味深い応用をもたらす可能性がある。
この課題は主に、異なる視覚特性を音声信号から切り離すことである。
そこで本研究では,非競合ビデオ入力から無関係な感情・アイデンティティ情報を抽出する軽量なクロスモーダル蒸留法を提案する。
論文 参考訳(メタデータ) (2021-07-10T10:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。