論文の概要: Scalable, Energy-Efficient Optical-Neural Architecture for Multiplexed Deepfake Video Detection
- arxiv url: http://arxiv.org/abs/2605.19360v1
- Date: Tue, 19 May 2026 04:42:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.130166
- Title: Scalable, Energy-Efficient Optical-Neural Architecture for Multiplexed Deepfake Video Detection
- Title(参考訳): 多重化ディープフェイク映像検出のためのスケーラブルでエネルギー効率の良い光ニューラルアーキテクチャ
- Authors: Parnian Ghapandar Kashani, Shiqi Chen, Aydogan Ozcan,
- Abstract要約: 本稿では,軽量ディジタルフロントエンドと空間多重光デコードバックエンドを組み合わせたハイブリッドデジタルアナログディープフェイクビデオ検出フレームワークを提案する。
我々は,Celeb-DFビデオデータセットでそれぞれ97.79%,99.86%,95.72%の平均ディープフェイク検出精度,感度,特異性を達成した。
この結果から,光学計算をAI推論に統合することにより,スループット,エネルギー効率,対向ロバスト性を同時に向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 7.349238139625144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid proliferation of AI-generated visual media has created an urgent need for efficient, trustworthy deepfake detection systems. However, existing deep learning-based detection methods rely on computationally intensive and energy-demanding inference algorithms, limiting their scalability. Here, we present a hybrid digital-analog deepfake video detection framework that combines a lightweight digital front-end with a spatially multiplexed optical decoding back-end for massively parallel analog inference through a programmable spatial light modulator. By simultaneously processing 15 or more video streams within a single optical propagation pass, the system enables high-throughput and accurate video-level authenticity prediction at reduced computational cost compared with purely digital methods. We validated this hybrid deepfake video processor using different datasets spanning classical face-swapping, real-world deepfake recordings, and fully AI-generated videos. Using a spatially multiplexed experimental set-up operating in the visible spectrum, we achieved average deepfake detection accuracy, sensitivity and specificity of 97.79%, 99.86% and 95.72%, respectively, on the Celeb-DF video dataset with 15 videos tested in parallel in a single optical pass per inference. The multiplexed optical decoder also demonstrates resilience against various types of video degradation, noise, compression, experimental misalignments and black-box adversarial attacks. Our results show that integrating optical computation into AI inference enables simultaneous gains in throughput, energy efficiency, and adversarial robustness - three properties that are difficult to achieve together in purely digital systems.
- Abstract(参考訳): AIが生成するビジュアルメディアの急速な普及は、効率的で信頼性の高いディープフェイク検出システムに対する緊急の需要を生み出した。
しかし、既存のディープラーニングに基づく検出手法は、計算集約的でエネルギー需要の高い推論アルゴリズムに依存しており、スケーラビリティを制限している。
本稿では,軽量デジタルフロントエンドと空間多重光デコードバックエンドを組み合わせたハイブリッドデジタルアナログディープフェイクビデオ検出フレームワークを提案する。
単一の光伝搬パス内で15以上の映像ストリームを同時に処理することにより、純粋なデジタル手法と比較して計算コストの削減による高スループットかつ正確な映像レベルの精度予測を可能にする。
私たちはこのハイブリッドなディープフェイクビデオプロセッサを、古典的なフェイススワッピング、現実世界のディープフェイク録音、そして完全なAI生成ビデオにまたがるさまざまなデータセットを使用して検証した。
可視光スペクトルで動作する空間多重化実験装置を用いて,1回の光パスで15本のビデオが並列にテストされたCeleb-DFビデオデータセットにおいて,平均深度検出精度,感度,特異度を97.79%,99.86%,95.72%とした。
多重化光デコーダはまた、様々な種類のビデオ劣化、ノイズ、圧縮、実験ミスアライメント、ブラックボックスの敵攻撃に対するレジリエンスを示す。
この結果から,光学計算をAI推論に組み込むことで,スループット,エネルギー効率,対向ロバスト性を同時に向上させることができることがわかった。
関連論文リスト
- Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - Transferable polychromatic optical encoder for neural networks [13.311727599288524]
本稿では,画像キャプチャ中に3つの色チャネルで同時に畳み込みを行う光学エンコーダを実演する。
このような光学符号化は計算処理を24,000倍に削減し、自由空間光学系における最先端の分類精度(73.2%)が得られる。
論文 参考訳(メタデータ) (2024-11-05T00:49:47Z) - BVI-RLV: A Fully Registered Dataset and Benchmarks for Low-Light Video Enhancement [56.97766265018334]
本稿では,2つの異なる低照度条件下での様々な動きシナリオを持つ40のシーンからなる低照度映像データセットを提案する。
我々は、プログラム可能なモータードリーを用いて、通常の光で捉えた完全に登録された地上真実データを提供し、異なる光レベルにわたるピクセルワイドフレームアライメントのための画像ベースアプローチによりそれを洗練する。
実験の結果,Low-light Video enhancement (LLVE) における完全登録ビデオペアの重要性が示された。
論文 参考訳(メタデータ) (2024-07-03T22:41:49Z) - Deep Optics for Video Snapshot Compressive Imaging [10.830072985735175]
ビデオ・スナップショット・イメージング(SCI)は、2D検出器の1枚のショットだけでビデオ・フレームのシーケンスをキャプチャすることを目的としている。
本稿では,マスクと再構成ネットワークを協調的に最適化する枠組みを提案する。
これは、現実世界のビデオSCIのマイルストーンだ、と私たちは信じている。
論文 参考訳(メタデータ) (2024-04-08T08:04:44Z) - Digital-analog hybrid matrix multiplication processor for optical neural
networks [11.171425574890765]
光ニューラルネットワーク(ONN)のためのディジタルアナログハイブリッド光コンピューティングアーキテクチャを提案する。
しきい値に基づく論理レベルと決定を導入することにより、計算精度を大幅に向上させることができる。
画素誤り率(PER)は18.2dBの信号対雑音比(SNR)で1.8times10-3$以下である。
論文 参考訳(メタデータ) (2024-01-26T18:42:57Z) - Spatiotemporal Attention-based Semantic Compression for Real-time Video
Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。
我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。
実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2023-05-22T07:47:27Z) - Dual-view Snapshot Compressive Imaging via Optical Flow Aided Recurrent
Neural Network [14.796204921975733]
デュアルビュースナップショット圧縮イメージング(SCI)は、2つの視野(FoV)からのビデオを1つのスナップショットでキャプチャすることを目的としている。
既存のモデルベースの復号アルゴリズムでは個々のシーンを再構築することは困難である。
本稿では,2重ビデオSCIシステムのための光フロー支援型リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-11T14:24:44Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - Scalable Optical Learning Operator [0.2399911126932526]
提案するフレームワークは,速度を分類することなく既存のシステムのエネルギースケーリング問題を克服する。
数値的および実験的に、デジタル実装に匹敵する精度で複数の異なるタスクを実行する方法の能力を示した。
その結果、マルチモードファイバベースのコンピュータの性能を複製するには、強力なスーパーコンピュータが必要であることが示された。
論文 参考訳(メタデータ) (2020-12-22T23:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。