論文の概要: Lightweight Complementary-Cue Fusion for Robust Video Face Forgery Detection
- arxiv url: http://arxiv.org/abs/2605.29092v1
- Date: Wed, 27 May 2026 20:51:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.455976
- Title: Lightweight Complementary-Cue Fusion for Robust Video Face Forgery Detection
- Title(参考訳): ロバストビデオ顔偽造検出のための軽量補間核融合
- Authors: Sunghwan Baek, Tariq Anwaar, Karanveer Singh, Rita Singh,
- Abstract要約: 2つの手工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工
Xceptionベースラインモデルに基づいて、低周波ウェーブレット分解特徴(WDF)と位相スペクトルチャネルを組み合わせた1x1畳み込みを加えたLFWSという2つの検出器を構築した。
- 参考スコア(独自算出の注目度): 16.800905609731178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current face video forgery detectors use wide or dual-stream backbones. We show that a single, lightweight fusion of two handcrafted cues can achieve higher accuracy with a much smaller model. Based on the Xception baseline model (21.9 million parameters), we build two detectors: LFWS, which adds a 1x1 convolution to combine a low-frequency Wavelet-Denoised Feature (WDF) with a phase-spectrum channel derived from Spatial-Phase Shallow Learning (SPSL), and LFWL, which merges WDF with Local Binary Patterns (LBP) in the same way. This extra module adds only 292 parameters, keeping the total at 21.9 million, smaller than F3Net (22.5 million) and less than half the size of SRM (55.3 million). Even with this minimal overhead, the fused models increase the average area under the curve (AUC) from 74.8% to 78.6% on FaceForensics++ and from 70.5% to 74.9% on DFDC-Preview, gains of 3.8% and 4.4% over the Xception baseline. They also consistently outperform F3Net, SRM, and SPSL in eight public benchmarks, without extra data or test-time augmentation. These results show that carefully paired, handcrafted features, combined through the lightweight fusion block, can provide competitive robustness at a significantly lower cost than comparable frequency-based detectors. Our findings suggest a need to reevaluate scale-driven design choices in face video forgery detection.
- Abstract(参考訳): 現在のフェースビデオフォージェリー検出器は、広角またはデュアルストリームのバックボーンを使用する。
2つの手工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工芸工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工理工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工工1工1工工1工1工1工1工1工1工1工2工1工1工1工1工1工1工1工1両1
Xceptionベースラインモデル(219万のパラメータ)に基づいて、低周波ウェーブレット分解特徴(WDF)とSpatial-Phase Shallow Learning(SPSL)から派生した位相スペクトルチャネルを組み合わせた1x1畳み込みを加えたLFWSと、WDFとローカルバイナリパターン(LBP)を併用したLFWLという2つの検出器を構築した。
この追加モジュールは292のパラメータしか追加せず、合計21.9百万であり、F3Net(22.5百万)より小さく、SRM(5530万)の半分以下である。
この最小限のオーバーヘッドにもかかわらず、融合したモデルは、FaceForensics++では74.8%から78.6%に、DFDC-Previewでは70.5%から74.9%に増加し、Xceptionベースラインでは3.8%と4.4%に増加した。
また、F3Net、SRM、SPSLを8つの公開ベンチマークで常に上回り、追加のデータやテストタイムの増大を伴わない。
これらの結果から, 軽量核融合ブロックを介し, 慎重にペアリングされた手作りの機能を組み合わせることで, 競合する周波数ベース検出器よりもはるかに低コストで, 競争力に富むことを示した。
以上の結果から,顔画像偽造検出におけるスケール駆動型設計選択の再評価の必要性が示唆された。
関連論文リスト
- Audio Deepfake Detection with Half-Truth Localisation Using Cross-Attentive Feature Fusion [0.0]
CAFNetは3次分類(リアル、フルフェイク、ハーフトゥルース)を行い、合成された領域の時間的境界を1つの前方通過で遅らせる。
2値検出では、96.76%の精度と3.20%の誤差率(EER)を達成し、500倍以上のパラメータで微調整されたXLS-R 300M(78.31%)とAST 87M(93.03%)を上回っている。
論文 参考訳(メタデータ) (2026-05-28T07:47:22Z) - Scaling DoRA: High-Rank Adaptation via Factored Norms and Fused Kernels [83.99688944263843]
DoRA(Weight-De Low-Rank Adaptation)は、LoRAを方向から分離することで拡張する。
d_in = 8192 とランク r = 384 では、単一のモジュールのノルムは bf16 で512MB の過渡的なワーキングメモリを必要とする。
因子ノルムは、二乗ノルムを O(d_out r + r2) 中間体を通して計算可能な基底、交差、およびグラマー項に分解し、密積を除去する。
論文 参考訳(メタデータ) (2026-03-23T17:57:24Z) - SLNet: A Super-Lightweight Geometry-Adaptive Network for 3D Point Cloud Recognition [1.499944454332829]
SLNetは3Dポイントクラウド認識のための軽量なバックボーンである。
このモデルは、NAPE(Nonparametric Adaptive Point Embedding)とGMU(Geometric Modulation Unit)という2つの単純なアイデアに基づいて構築されている。
論文 参考訳(メタデータ) (2026-03-08T04:07:42Z) - A Deployment-Friendly Foundational Framework for Efficient Computational Pathology [48.3868019137117]
モデルオーバーパラメータ化とパッチレベルの冗長性を緩和するLitePathを提案する。
LitePathは、1億9000万のパッチを使用して3つの大きなPFMから蒸留されたコンパクトなモデルであるLiteFMを統合している。
LitePathはVirchhow2より104.5倍高速で、3000のスライドに対して0.36 kWhを消費する。
論文 参考訳(メタデータ) (2026-02-15T06:31:50Z) - LPCAN: Lightweight Pyramid Cross-Attention Network for Rail Surface Defect Detection Using RGB-D Data [0.0]
本稿では,現在のビジョンに基づくレール欠陥検出手法の限界に対処する。
本稿では,RGB-Dデータを利用した軽量ピラミッドクロスアテンションネットワーク(LPCANet)を提案する。
LPCANetは990万のパラメータ、2.50GのFLOP、162.60fpsの推論速度で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-14T03:35:09Z) - Time-Series at the Edge: Tiny Separable CNNs for Wearable Gait Detection and Optimal Sensor Placement [3.7765281299298015]
我々は,3軸加速度の短い窓から発生するパーキンソン病(PD)の歩行検出のためのデバイス上での時系列解析について検討した。
1つの文献ベースライン(分離可能な畳み込み)と2つのウルトラライトモデル(純粋に分離可能なもの)である。
論文 参考訳(メタデータ) (2025-11-29T08:52:41Z) - LFM2 Technical Report [87.58431408281973]
LFM2は、デバイス上での効率的なデプロイと強力なタスク機能を実現するために設計された、Liquid Foundation Modelsのファミリーである。
LFM2ファミリーは350M-8.3Bパラメータをカバーしており、密度の高いモデル(350M, 700M, 1.2B, 2.6B)と試験用混合物(合計8.3B, 1.5B)を含んでいる。
視覚遅延タスクのためのLFM2-VL,音声のためのLFM2-Audio,検索のためのLFM2-ColBERTを構築した。
論文 参考訳(メタデータ) (2025-11-28T17:56:35Z) - Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction [95.91743732150233]
一連のオープンソースの言語モデルであるGoedel-Prover-V2は、自動定理の新たな最先端を証明した。
我々は、より複雑な定理をマスターするためにモデルを訓練することの困難さを増す合成タスクを生成する。
Goedel-Prover-V2-32Bは、標準モードのpass@32でMiniF2Fの88.1%、自己補正モードの90.4%を達成する。
論文 参考訳(メタデータ) (2025-08-05T16:28:22Z) - LCM: Locally Constrained Compact Point Cloud Model for Masked Point Modeling [47.94285833315427]
本稿では,局所的に制約されたコンパクト・エンコーダと局所的に制約されたMambaベースのデコーダからなる,局所的に制約されたコンパクト・ポイント・クラウド・モデルを提案する。
エンコーダは、パフォーマンスと効率のエレガントなバランスを達成するために、自己アテンションをローカルアグリゲーション層に置き換えます。
このデコーダは、高情報密度の未処理パッチからの点雲幾何学情報の知覚を最大化しつつ、線形複雑性を保証する。
論文 参考訳(メタデータ) (2024-05-27T13:19:23Z) - A Lightweight and Accurate Face Detection Algorithm Based on Retinaface [0.5076419064097734]
Retinaface に基づく軽量かつ高精度な顔検出アルゴリズム LAFD (Light and accurate face detection) を提案する。
アルゴリズムのバックボーンネットワークは、畳み込みカーネルのサイズを調整する修正されたMobileNetV3ネットワークである。
入力画像が前処理され、長さが1560px、幅が1200pxとなると、平均精度は86.2%となる。
論文 参考訳(メタデータ) (2023-08-08T15:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。