論文の概要: Visual Representations of Physiological Signals for Fake Video Detection
- arxiv url: http://arxiv.org/abs/2207.08380v1
- Date: Mon, 18 Jul 2022 05:14:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 17:18:39.115726
- Title: Visual Representations of Physiological Signals for Fake Video Detection
- Title(参考訳): フェイクビデオ検出のための生理信号の視覚表現
- Authors: Kalin Stefanov, Bhawna Paliwal, Abhinav Dhall
- Abstract要約: 本稿では,実ビデオと偽ビデオを検出するためのマルチモーダル学習手法を提案する。
この方法は、オーディオ、ビデオ、生理学の3つのモードからの情報を組み合わせる。
その結果,従来法に比べて検出性能が有意に向上した。
- 参考スコア(独自算出の注目度): 5.833272638548153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Realistic fake videos are a potential tool for spreading harmful
misinformation given our increasing online presence and information intake.
This paper presents a multimodal learning-based method for detection of real
and fake videos. The method combines information from three modalities - audio,
video, and physiology. We investigate two strategies for combining the video
and physiology modalities, either by augmenting the video with information from
the physiology or by novelly learning the fusion of those two modalities with a
proposed Graph Convolutional Network architecture. Both strategies for
combining the two modalities rely on a novel method for generation of visual
representations of physiological signals. The detection of real and fake videos
is then based on the dissimilarity between the audio and modified video
modalities. The proposed method is evaluated on two benchmark datasets and the
results show significant increase in detection performance compared to previous
methods.
- Abstract(参考訳): リアルな偽ビデオは、オンラインのプレゼンスと情報摂取の増加を考えると、有害な誤った情報を拡散する潜在的なツールである。
本稿では,実映像と偽映像を検出するマルチモーダル学習方式を提案する。
この方法は、オーディオ、ビデオ、生理学の3つのモードからの情報を組み合わせる。
提案するグラフ畳み込みネットワークアーキテクチャを用いて,映像と生体情報との融合を新規に学習することにより,映像と生理的モダリティを組み合わせるための2つの戦略について検討した。
どちらの戦略も、生理的信号の視覚的表現を生成する新しい方法に依存している。
リアルビデオとフェイクビデオの検出は、オーディオと修正されたビデオのモダリティの相違に基づいて行われる。
提案手法を2つのベンチマークデータセットで評価し, 従来手法と比較して検出性能が有意に向上したことを示す。
関連論文リスト
- AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Multimodal Short Video Rumor Detection System Based on Contrastive
Learning [3.4192832062683842]
中国のショートビデオプラットフォームは、フェイクニュースの拡散の場として徐々に肥大化してきた。
短いビデオの噂を区別することは、大量の情報と共有機能のために大きな課題となる。
本研究グループは,マルチモーダルな特徴融合と外部知識の統合を包含する方法論を提案する。
論文 参考訳(メタデータ) (2023-04-17T16:07:00Z) - Weakly-supervised High-fidelity Ultrasound Video Synthesis with Feature
Decoupling [13.161739586288704]
臨床実践において、分析と診断は、動的解剖情報を得るために単一の画像ではなくアメリカのシーケンスに依存することが多い。
患者からの適切なビデオで練習することは、臨床的には実践的ではないため、初心者には学ぶことが難しい。
我々は,高忠実度US動画を合成するための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-07-01T14:53:22Z) - Combining Contrastive and Supervised Learning for Video Super-Resolution
Detection [0.0]
コントラストとクロスエントロピーの損失を用いた視覚表現の学習に基づく新しいアップスケール分解能検出法を提案する。
本手法は,圧縮ビデオにおいてもアップスケーリングを効果的に検出し,最先端の代替品よりも優れる。
論文 参考訳(メタデータ) (2022-05-20T18:58:13Z) - Self-Supervised Video Representation Learning by Video Incoherence
Detection [28.540645395066434]
本稿では,ビデオ表現学習における非コヒーレンス検出を利用した自己教師方式を提案する。
人間の視覚系は、ビデオの包括的理解に基づいて、容易にビデオの不整合を識別できるという観察に根ざしている。
論文 参考訳(メタデータ) (2021-09-26T04:58:13Z) - Few-Shot Video Object Detection [70.43402912344327]
本稿では,Few-Shot Video Object Detection (FSVOD) を紹介する。
fsvod-500は500のクラスからなり、各カテゴリーにクラスバランスのビデオがある。
私達のTPNおよびTMN+は共同およびエンドツーエンドの訓練されます。
論文 参考訳(メタデータ) (2021-04-30T07:38:04Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Self-supervised Video Representation Learning by Pace Prediction [48.029602040786685]
本稿では,ビデオペース予測による自己指導型映像表現学習の課題に対処する。
人間の視覚系がビデオのペースに敏感であるという観察に由来する。
我々は、異なるペースでトレーニングクリップをランダムにサンプリングし、ニューラルネットワークに各ビデオクリップのペースを特定するよう依頼する。
論文 参考訳(メタデータ) (2020-08-13T12:40:24Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。