論文の概要: Self-Supervised Video Forensics by Audio-Visual Anomaly Detection
- arxiv url: http://arxiv.org/abs/2301.01767v2
- Date: Mon, 27 Mar 2023 18:53:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 18:59:48.066374
- Title: Self-Supervised Video Forensics by Audio-Visual Anomaly Detection
- Title(参考訳): 視聴覚異常検出による自己監視ビデオ鑑識
- Authors: Chao Feng, Ziyang Chen, Andrew Owens
- Abstract要約: 操作されたビデオには、視覚信号と音声信号の間に微妙な矛盾があることが多い。
本稿では,これらの不整合を識別できる異常検出に基づくビデオ法医学手法を提案する。
ビデオフレームと音声の時間同期をキャプチャする特徴セットを用いて、自動回帰モデルを訓練し、音声・視覚的特徴のシーケンスを生成する。
- 参考スコア(独自算出の注目度): 19.842795378751923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Manipulated videos often contain subtle inconsistencies between their visual
and audio signals. We propose a video forensics method, based on anomaly
detection, that can identify these inconsistencies, and that can be trained
solely using real, unlabeled data. We train an autoregressive model to generate
sequences of audio-visual features, using feature sets that capture the
temporal synchronization between video frames and sound. At test time, we then
flag videos that the model assigns low probability. Despite being trained
entirely on real videos, our model obtains strong performance on the task of
detecting manipulated speech videos. Project site:
https://cfeng16.github.io/audio-visual-forensics
- Abstract(参考訳): 操作ビデオには、視覚信号と音声信号の間に微妙な矛盾があることが多い。
そこで本研究では,このような不整合を識別し,ラベルのない実データのみを用いて訓練できる映像解析手法を提案する。
ビデオフレームと音声の時間同期をキャプチャする特徴セットを用いて,自動回帰モデルを用いて音声・視覚特徴のシーケンスを生成する。
テスト時には、モデルが低い確率を割り当てたビデオにフラグを付ける。
実映像のみを訓練したものの,操作された音声映像の検出作業において強い性能を得られた。
プロジェクトサイト: https://cfeng16.github.io/audio-visual-forensics
関連論文リスト
- AV-Lip-Sync+: Leveraging AV-HuBERT to Exploit Multimodal Inconsistency
for Video Deepfake Detection [32.502184301996216]
マルチモーダル操作(オーディオ・ヴィジュアル・ディープフェイクとも呼ばれる)は、一方的なディープフェイク検出器がマルチメディアコンテンツの偽造を検出するのを困難にしている。
従来は、一様ビデオ法則を主に採用し、教師付き事前訓練を用いて偽造検出を行った。
本研究では,マルチモーダル自己教師付き学習(SSL)機能抽出器に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-05T18:35:03Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Anomaly detection in surveillance videos using transformer based
attention model [3.2968779106235586]
本研究は、トレーニングビデオにおける異常セグメントの注釈付けを避けるために、弱教師付き戦略を用いることを示唆する。
提案するフレームワークは,実世界のデータセット,すなわちShanghaiTech Campusデータセットで検証される。
論文 参考訳(メタデータ) (2022-06-03T12:19:39Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。