論文の概要: Counteracting temporal attacks in Video Copy Detection
- arxiv url: http://arxiv.org/abs/2501.11171v1
- Date: Sun, 19 Jan 2025 21:16:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:26:42.490283
- Title: Counteracting temporal attacks in Video Copy Detection
- Title(参考訳): ビデオコピー検出における時間的攻撃の防止
- Authors: Katarzyna Fojcik, Piotr Syga,
- Abstract要約: META AI Challenge on Video copy Detectionは、最先端の手法を評価するためのベンチマークを提供する。
我々の分析では、特に正確なコピーを扱う能力において、VEDコンポーネントの重大な制限が明らかになっている。
フレーム間差の局所的最大値に基づくフレーム選択方式を提案する。
- 参考スコア(独自算出の注目度): 1.0742675209112622
- License:
- Abstract: Video Copy Detection (VCD) plays a crucial role in copyright protection and content verification by identifying duplicates and near-duplicates in large-scale video databases. The META AI Challenge on video copy detection provided a benchmark for evaluating state-of-the-art methods, with the Dual-level detection approach emerging as a winning solution. This method integrates Video Editing Detection and Frame Scene Detection to handle adversarial transformations and large datasets efficiently. However, our analysis reveals significant limitations in the VED component, particularly in its ability to handle exact copies. Moreover, Dual-level detection shows vulnerability to temporal attacks. To address it, we propose an improved frame selection strategy based on local maxima of interframe differences, which enhances robustness against adversarial temporal modifications while significantly reducing computational overhead. Our method achieves an increase of 1.4 to 5.8 times in efficiency over the standard 1 FPS approach. Compared to Dual-level detection method, our approach maintains comparable micro-average precision ($\mu$AP) while also demonstrating improved robustness against temporal attacks. Given 56\% reduced representation size and the inference time of more than 2 times faster, our approach is more suitable to real-world resource restriction.
- Abstract(参考訳): ビデオコピー検出(VCD)は、大規模なビデオデータベースにおける重複とほぼ重複を識別することによって、著作権保護とコンテンツ検証において重要な役割を果たす。
META AI Challenge on Video copy Detectionは、最先端の手法を評価するためのベンチマークを提供し、デュアルレベルの検出アプローチが勝利のソリューションとして浮上した。
本手法は,映像編集検出とフレームシーン検出を統合して,逆変換や大規模データセットを効率的に処理する。
しかしながら,本研究では,特に正確なコピー処理能力において,VEDコンポーネントの大幅な制限が明らかにされている。
さらに、デュアルレベル検出は時間的攻撃に対する脆弱性を示す。
そこで本研究では,フレーム間差の局所的最大値に基づくフレーム選択手法を提案する。
提案手法は標準1 FPS法に比べて1.4倍から5.8倍の効率向上を実現している。
Dual-level detection法と比較して,本手法は時間的攻撃に対するロバスト性の向上を図りながら,同等のマイクロ平均精度(\mu$AP)を維持している。
56\%削減された表現サイズと2倍以上高速な推論時間を考えると,本手法は実世界の資源制限に適している。
関連論文リスト
- VideoPure: Diffusion-based Adversarial Purification for Video Recognition [21.317424798634086]
本稿では,ビデオ認識モデルの対角的ロバスト性を改善するための拡散型ビデオ浄化フレームワークであるVideoPureを提案する。
我々は、時間的DDIMインバージョンを用いて、入力分布を時間的に一貫したトラジェクトリ定義分布に変換し、より多くのビデオ構造を保ちながら、対向雑音をカバーする。
ベンチマークデータセットやモデルに対するブラックボックス,グレーボックス,アダプティブアタックに対する本手法の防御性能について検討する。
論文 参考訳(メタデータ) (2025-01-25T00:24:51Z) - Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - UVL2: A Unified Framework for Video Tampering Localization [0.0]
悪意のあるビデオの改ざんは、世間の誤解、財産の喪失、法的な論争につながる可能性がある。
本稿では,映像の塗布とスプライシングの検知性能を大幅に向上させる,効果的なビデオ改ざん局面ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-28T03:13:09Z) - A Dual-level Detection Method for Video Copy Detection [13.517933749704866]
Meta AIはCVPR 2023でビデオ類似性チャレンジを開催し、テクノロジーを前進させる。
本稿では,ビデオ編集検出(VED)とフレームシーン検出(FSD)を併用したデュアルレベル検出手法を提案する。
論文 参考訳(メタデータ) (2023-05-21T06:19:08Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - Temporal Early Exits for Efficient Video Object Detection [1.1470070927586016]
本稿では,フレーム単位の動画オブジェクト検出の計算複雑性を低減するため,時間的早期出口を提案する。
提案手法は,既存の手法と比較して,フレーム単位の動画オブジェクト検出の計算複雑性と実行を最大34倍に削減する。
論文 参考訳(メタデータ) (2021-06-21T15:49:46Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z) - Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed
Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。
人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。
標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文 参考訳(メタデータ) (2020-07-21T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。