論文の概要: Vision Transformer Based Video Hashing Retrieval for Tracing the Source
of Fake Videos
- arxiv url: http://arxiv.org/abs/2112.08117v1
- Date: Wed, 15 Dec 2021 13:35:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 14:36:54.980637
- Title: Vision Transformer Based Video Hashing Retrieval for Tracing the Source
of Fake Videos
- Title(参考訳): 視覚トランスフォーマーを用いた偽映像の音源追跡のためのビデオハッシュ検索
- Authors: Pengfei Pei, Xianfeng Zhao, Jinchuan Li, Yun Cao, Xiaowei Yi
- Abstract要約: 同様のソースビデオから本当のものを見つけるのは難しい。
本稿では,この問題を解決するために,新たな損失Hash Triplet Lossを提案する。
DAVIS2016-TL上での最先端手法と同等の性能を実現する。
- 参考スコア(独自算出の注目度): 22.46537019420226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional fake video detection methods outputs a possibility value or a
suspected mask of tampering images. However, such unexplainable results cannot
be used as convincing evidence. So it is better to trace the sources of fake
videos. The traditional hashing methods are used to retrieve semantic-similar
images, which can't discriminate the nuances of the image. Specifically, the
sources tracing compared with traditional video retrieval. It is a challenge to
find the real one from similar source videos. We designed a novel loss Hash
Triplet Loss to solve the problem that the videos of people are very similar:
the same scene with different angles, similar scenes with the same person. We
propose Vision Transformer based models named Video Tracing and Tampering
Localization (VTL). In the first stage, we train the hash centers by ViTHash
(VTL-T). Then, a fake video is inputted to ViTHash, which outputs a hash code.
The hash code is used to retrieve the source video from hash centers. In the
second stage, the source video and fake video are inputted to generator
(VTL-L). Then, the suspect regions are masked to provide auxiliary information.
Moreover, we constructed two datasets: DFTL and DAVIS2016-TL. Experiments on
DFTL clearly show the superiority of our framework in sources tracing of
similar videos. In particular, the VTL also achieved comparable performance
with state-of-the-art methods on DAVIS2016-TL. Our source code and datasets
have been released on GitHub: \url{https://github.com/lajlksdf/vtl}.
- Abstract(参考訳): 従来の偽ビデオ検出方法は、改ざん画像の可能性値または疑わしいマスクを出力する。
しかし、そのような説明不能な結果は証拠として利用できない。
だから、偽のビデオのソースを追跡する方がよい。
従来のハッシュ法は、画像のニュアンスを識別できないセマンティック類似の画像を取得するために使用される。
具体的には、ソースのトレースと従来のビデオ検索を比較します。
同じようなソースビデオから本物のものを見つけるのは困難です。
私たちは、Hash Triplet Lossという小説をデザインし、人のビデオが非常に似ているという問題を解決しました。
本稿では、VTL(Video Tracing and Tampering Localization)と呼ばれるビジョントランスフォーマーに基づくモデルを提案する。
第1段階では、VTHash (VTL-T) でハッシュセンターを訓練する。
そして、偽のビデオがViTHashに入力され、ハッシュコードが出力される。
ハッシュコードは、ハッシュセンターからソースビデオを取得するために使用される。
第2段階では、ソースビデオと偽ビデオとをジェネレータ(VTL−L)に入力する。
そして、被疑領域をマスクして補助情報を提供する。
さらに,DFTLとDAVIS2016-TLの2つのデータセットを構築した。
DFTLの実験は、類似動画のソーストレースにおいて、我々のフレームワークが優れていることを明らかに示している。
特に、VTLは、DAVIS2016-TLの最先端メソッドと同等のパフォーマンスを達成した。
ソースコードとデータセットはgithubでリリースされています。
関連論文リスト
- Reference-based Restoration of Digitized Analog Videotapes [28.773037051085318]
デジタルアナログビデオテープ(TAPE)の再作成のための参照ベースアプローチを提案する。
ゼロショットアーティファクト検出にCLIPを活用し、異なるアーティファクトを記述するテキストプロンプトを通じて、各ビデオの最もクリーンなフレームを識別する。
実世界のビデオにおける真実の欠如に対処するため、アナログビデオテープによく見られるアーティファクトによく似た、ビデオの合成データセットを作成します。
論文 参考訳(メタデータ) (2023-10-20T17:33:57Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Contrastive Masked Autoencoders for Self-Supervised Video Hashing [54.636976693527636]
SSVH(Self-Supervised Video Hashing)モデルは,ビデオの短いバイナリ表現を生成することを学ぶ。
本稿では,映像意味情報と映像類似性関係理解を組み込んだ,シンプルで効果的なワンステージSSVH手法であるConMHを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:48:14Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - VPN: Video Provenance Network for Robust Content Attribution [72.12494245048504]
VPN - オンラインで共有されているビデオから出典情報を復元するコンテンツ属性手法を提案する。
完全長あるいは切り離されたビデオクエリを用いて,このようなビデオのマッチングに頑健な検索埋め込みを学習する。
一度ビデオクリップの信頼できるデータベースにマッチすると、そのクリップの出所に関する関連情報がユーザに提示される。
論文 参考訳(メタデータ) (2021-09-21T09:07:05Z) - Deepfake Detection Scheme Based on Vision Transformer and Distillation [4.716110829725784]
偽ビデオ検出のための蒸留法を用いたVision Transformerモデルを提案する。
提案手法は,CNN機能の組み合わせにより,入力としてのパッチ埋め込みが最先端であることを確認した。
論文 参考訳(メタデータ) (2021-04-03T09:13:05Z) - Efficient video integrity analysis through container characterization [77.45740041478743]
本稿では,ビデオ操作に使用するソフトウェアをコンテナベースで識別する手法を提案する。
提案手法は効率的かつ効果的であり,その決定の簡易な説明も可能である。
プリストインを改ざんされたビデオと区別し、編集ソフトを分類することで97.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-01-26T14:13:39Z) - A Convolutional LSTM based Residual Network for Deepfake Video Detection [23.275080108063406]
我々は、深層ビデオを検出するための畳み込みLSTMベースのResidual Network(CLRNet)を開発した。
また,異なるディープフェイク手法を一般化するための伝達学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-16T05:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。