論文の概要: Frame-rate Up-conversion Detection Based on Convolutional Neural Network
for Learning Spatiotemporal Features
- arxiv url: http://arxiv.org/abs/2103.13674v1
- Date: Thu, 25 Mar 2021 08:47:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 13:48:07.648600
- Title: Frame-rate Up-conversion Detection Based on Convolutional Neural Network
for Learning Spatiotemporal Features
- Title(参考訳): 時空間特徴学習のための畳み込みニューラルネットワークを用いたフレームレートアップコンバージョン検出
- Authors: Minseok Yoon, Seung-Hun Nam, In-Jae Yu, Wonhyuk Ahn, Myung-Joon Kwon,
Heung-Kyu Lee
- Abstract要約: 本稿では、FRUCによる法医学的特徴をエンドツーエンドに学習するフレームレート変換検出ネットワーク(FCDNet)を提案する。
FCDNetは連続するフレームのスタックを入力として使用し、ネットワークブロックを使ってアーティファクトを効果的に学習して特徴を学習する。
- 参考スコア(独自算出の注目度): 7.895528973776606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advance in user-friendly and powerful video editing tools, anyone
can easily manipulate videos without leaving prominent visual traces.
Frame-rate up-conversion (FRUC), a representative temporal-domain operation,
increases the motion continuity of videos with a lower frame-rate and is used
by malicious counterfeiters in video tampering such as generating fake
frame-rate video without improving the quality or mixing temporally spliced
videos. FRUC is based on frame interpolation schemes and subtle artifacts that
remain in interpolated frames are often difficult to distinguish. Hence,
detecting such forgery traces is a critical issue in video forensics. This
paper proposes a frame-rate conversion detection network (FCDNet) that learns
forensic features caused by FRUC in an end-to-end fashion. The proposed network
uses a stack of consecutive frames as the input and effectively learns
interpolation artifacts using network blocks to learn spatiotemporal features.
This study is the first attempt to apply a neural network to the detection of
FRUC. Moreover, it can cover the following three types of frame interpolation
schemes: nearest neighbor interpolation, bilinear interpolation, and
motion-compensated interpolation. In contrast to existing methods that exploit
all frames to verify integrity, the proposed approach achieves a high detection
speed because it observes only six frames to test its authenticity. Extensive
experiments were conducted with conventional forensic methods and neural
networks for video forensic tasks to validate our research. The proposed
network achieved state-of-the-art performance in terms of detecting the
interpolated artifacts of FRUC. The experimental results also demonstrate that
our trained model is robust for an unseen dataset, unlearned frame-rate, and
unlearned quality factor.
- Abstract(参考訳): ユーザーフレンドリーで強力なビデオ編集ツールの進歩により、誰でも目立った視覚的痕跡を残すことなく簡単にビデオを操作できる。
フレームレートアップ・コンバージョン(FRUC)は、時間領域の代表的な操作であり、低フレームレートでの動画の動作継続性を高め、偽フレームレートビデオの生成などのビデオ改ざんに悪意のある偽造者によって使用される。
FRUCはフレーム補間スキームに基づいており、補間フレームに残る微妙なアーティファクトは区別が難しいことが多い。
したがって、このような偽造跡の検出は、ビデオ鑑識において重大な問題である。
本稿では、FRUCによる法医学的特徴をエンドツーエンドに学習するフレームレート変換検出ネットワーク(FCDNet)を提案する。
提案するネットワークは,連続するフレームのスタックを入力とし,ネットワークブロックを用いて補間アーティファクトを効果的に学習し,時空間の特徴を学習する。
この研究は、FRUCの検出にニューラルネットワークを適用する最初の試みである。
さらに、近接補間、双線形補間、動き補償補間という3種類のフレーム補間スキームをカバーできる。
完全性を検証するためにすべてのフレームを利用する既存の手法とは対照的に,提案手法は6フレームしか観測できないため,高い検出速度を実現する。
従来の法医学的手法とニューラルネットワークを用いて大規模な実験を行い,本研究の検証を行った。
提案したネットワークは、FRUCの補間されたアーティファクトを検出することで最先端の性能を達成した。
実験結果は、トレーニングされたモデルが、未知のデータセット、未学習のフレームレート、未学習の品質ファクターに対して堅牢であることを示す。
関連論文リスト
- Video Dynamics Prior: An Internal Learning Approach for Robust Video
Enhancements [83.5820690348833]
外部トレーニングデータコーパスを必要としない低レベルの視覚タスクのためのフレームワークを提案する。
提案手法は,コヒーレンス・時間的テストの重み付けと統計内部統計を利用して,破損したシーケンスを最適化することでニューラルモジュールを学習する。
論文 参考訳(メタデータ) (2023-12-13T01:57:11Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z) - Video Shadow Detection via Spatio-Temporal Interpolation Consistency
Training [31.115226660100294]
本稿では、ラベル付き画像とともにラベル付きビデオフレームを画像陰影検出ネットワークトレーニングに供給するフレームワークを提案する。
次に,画素ワイド分類における一般化の促進のために,空間的および時間的整合性の制約を導出する。
さらに,画像のマルチスケール影知識学習のためのスケール・アウェア・ネットワークを設計する。
論文 参考訳(メタデータ) (2022-06-17T14:29:51Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - PAT: Pseudo-Adversarial Training For Detecting Adversarial Videos [20.949656274807904]
我々は,攻撃の知識を必要とせず,映像中の対角フレームを検出するための,Pseudo-versa-Adrial Training (PAT) という,新しい単純なアルゴリズムを提案する。
UCF-101および20BN-Jesterデータセットによる実験結果から、PATは高い検出率で対向的なビデオフレームやビデオを検出することができることがわかった。
論文 参考訳(メタデータ) (2021-09-13T04:05:46Z) - Temporal Early Exits for Efficient Video Object Detection [1.1470070927586016]
本稿では,フレーム単位の動画オブジェクト検出の計算複雑性を低減するため,時間的早期出口を提案する。
提案手法は,既存の手法と比較して,フレーム単位の動画オブジェクト検出の計算複雑性と実行を最大34倍に削減する。
論文 参考訳(メタデータ) (2021-06-21T15:49:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。