論文の概要: FastForensics: Efficient Two-Stream Design for Real-Time Image Manipulation Detection
- arxiv url: http://arxiv.org/abs/2408.16582v1
- Date: Thu, 29 Aug 2024 14:48:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 13:23:15.069981
- Title: FastForensics: Efficient Two-Stream Design for Real-Time Image Manipulation Detection
- Title(参考訳): FastForensics:リアルタイム画像操作検出のための効率的な2ストリーム設計
- Authors: Yangxiang Zhang, Yuezun Li, Ao Luo, Jiaran Zhou, Junyu Dong,
- Abstract要約: 本稿では,リアルタイム画像操作検出のための効率的な2ストリームアーキテクチャについて述べる。
本手法は,認知的視点と検査的視点を対象とする2流分枝から構成される。
提案手法は軽量($8M)だが,他の多くの手法と比較して競争性能が向上する。
- 参考スコア(独自算出の注目度): 35.055076102193624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise in popularity of portable devices, the spread of falsified media on social platforms has become rampant. This necessitates the timely identification of authentic content. However, most advanced detection methods are computationally heavy, hindering their real-time application. In this paper, we describe an efficient two-stream architecture for real-time image manipulation detection. Our method consists of two-stream branches targeting the cognitive and inspective perspectives. In the cognitive branch, we propose efficient wavelet-guided Transformer blocks to capture the global manipulation traces related to frequency. This block contains an interactive wavelet-guided self-attention module that integrates wavelet transformation with efficient attention design, interacting with the knowledge from the inspective branch. The inspective branch consists of simple convolutions that capture fine-grained traces and interact bidirectionally with Transformer blocks to provide mutual support. Our method is lightweight ($\sim$ 8M) but achieves competitive performance compared to many other counterparts, demonstrating its efficacy in image manipulation detection and its potential for portable integration.
- Abstract(参考訳): 携帯端末の普及に伴い、ソーシャルメディア上での偽造メディアの普及が激化している。
これは、正確な内容のタイムリーな識別を必要とする。
しかし、ほとんどの先進的な検出手法は計算的に重く、リアルタイムの応用を妨げる。
本稿では,リアルタイム画像操作検出のための効率的な2ストリームアーキテクチャについて述べる。
本手法は,認知的視点と検査的視点を対象とする2流分枝から構成される。
本稿では,ウェーブレット誘導型トランスフォーマーブロックを提案する。
本ブロックは、ウェーブレット変換と効率的な注意設計を統合し、検査部からの知識と相互作用する対話型ウェーブレット誘導自己注意モジュールを含む。
インスペクティブブランチは、微細なトレースをキャプチャし、相互サポートを提供するためにTransformerブロックと双方向に対話する単純な畳み込みで構成されている。
提案手法は軽量($8M)だが,他の多くの手法と比較して競争性能が向上し,画像操作検出の有効性と携帯型統合の可能性を示す。
関連論文リスト
- SeaDATE: Remedy Dual-Attention Transformer with Semantic Alignment via Contrast Learning for Multimodal Object Detection [18.090706979440334]
マルチモーダルオブジェクト検出は、様々なモーダル情報を活用して、検出器の精度と堅牢性を高める。
現在の方法では、トランスフォーマー誘導核融合技術は、ネットワークの様々な深さ層における特徴を抽出する能力を探ることなく、単純にスタック化されている。
本論文では,SeaDATEと呼ばれる高精度かつ効率的な物体検出手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T07:26:39Z) - STMixer: A One-Stage Sparse Action Detector [43.62159663367588]
よりフレキシブルな1段アクション検出器のための2つのコア設計を提案する。
まず、クエリベースの適応的特徴サンプリングモジュールを分離し、ビデオ時間領域全体から特徴群をマイニングする柔軟性を備えた検出器を実現する。
第2に,より優れた特徴復号化のために,空間次元と時間次元の混合に動的に参画する分離された特徴混合モジュールを考案する。
論文 参考訳(メタデータ) (2024-04-15T14:52:02Z) - Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - SODFormer: Streaming Object Detection with Transformer Using Events and
Frames [31.293847706713052]
DAカメラは、非同期イベントとフレームの相補的な2つのモードをストリーミングする。
本稿では,SODFormerを用いた新しいストリーミングオブジェクト検出手法を提案する。
論文 参考訳(メタデータ) (2023-08-08T04:53:52Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。