論文の概要: Gumbel Rao Monte Carlo based Bi-Modal Neural Architecture Search for Audio-Visual Deepfake Detection
- arxiv url: http://arxiv.org/abs/2410.06543v1
- Date: Wed, 9 Oct 2024 04:37:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 05:09:09.755432
- Title: Gumbel Rao Monte Carlo based Bi-Modal Neural Architecture Search for Audio-Visual Deepfake Detection
- Title(参考訳): ガンベル・ラオ・モンテカルロによるオーディオ・ビジュアルディープフェイク検出のためのバイモーダルニューラルネットワーク探索
- Authors: Aravinda Reddy PN, Raghavendra Ramachandra, Krothapalli Sreenivasa Rao, Pabitra Mitra Vinod Rathod,
- Abstract要約: ディープフェイクは、高度にリアルな合成メディアを生成することによって、生体認証システムに重大な脅威をもたらす。
既存のマルチモーダルディープフェイク検出器は、しばしば多様なデータに適応するのに苦労し、単純な融合法に依存している。
本稿では,Gumbel-Rao Monte Carloサンプリングを用いてマルチモーダル融合を最適化する新しいアーキテクチャ探索フレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.711788614039839
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deepfakes pose a critical threat to biometric authentication systems by generating highly realistic synthetic media. Existing multimodal deepfake detectors often struggle to adapt to diverse data and rely on simple fusion methods. To address these challenges, we propose Gumbel-Rao Monte Carlo Bi-modal Neural Architecture Search (GRMC-BMNAS), a novel architecture search framework that employs Gumbel-Rao Monte Carlo sampling to optimize multimodal fusion. It refines the Straight through Gumbel Softmax (STGS) method by reducing variance with Rao-Blackwellization, stabilizing network training. Using a two-level search approach, the framework optimizes the network architecture, parameters, and performance. Crucial features are efficiently identified from backbone networks, while within the cell structure, a weighted fusion operation integrates information from various sources. By varying parameters such as temperature and number of Monte carlo samples yields an architecture that maximizes classification performance and better generalisation capability. Experimental results on the FakeAVCeleb and SWAN-DF datasets demonstrate an impressive AUC percentage of 95.4\%, achieved with minimal model parameters.
- Abstract(参考訳): ディープフェイクは、高度にリアルな合成メディアを生成することによって、生体認証システムに重大な脅威をもたらす。
既存のマルチモーダルディープフェイク検出器は、しばしば多様なデータに適応するのに苦労し、単純な融合法に依存している。
これらの課題に対処するため,Gumbel-Rao Monte Carlo Bi-modal Neural Architecture Search (GRMC-BMNAS)を提案する。
Rao-Blackwellizationとの分散を低減し、ネットワークトレーニングを安定化することで、Gumbel Softmax (STGS) 法によるストレートを改良する。
2段階の探索手法を用いて、このフレームワークはネットワークアーキテクチャ、パラメータ、パフォーマンスを最適化する。
バックボーンネットワークから地殻の特徴を効率的に同定する一方、細胞構造内では重み付け核融合操作は様々な情報源からの情報を統合する。
温度やモンテカルロサンプルの数などのパラメータが変化すると、分類性能とより優れた一般化能力を最大化するアーキテクチャが得られる。
FakeAVCelebとSWAN-DFデータセットの実験結果は、最小モデルパラメータで達成された印象的なAUCパーセンテージ95.4\%を示している。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - POMONAG: Pareto-Optimal Many-Objective Neural Architecture Generator [4.09225917049674]
Transferable NASが登場し、データセット依存からタスク依存への探索プロセスを一般化した。
本稿では多目的拡散プロセスを通じて拡散NAGを拡張するPOMONAGを紹介する。
結果は、NAS201とMobileNetV3の2つの検索スペースで検証され、15の画像分類データセットで評価された。
論文 参考訳(メタデータ) (2024-09-30T16:05:29Z) - Straight Through Gumbel Softmax Estimator based Bimodal Neural Architecture Search for Audio-Visual Deepfake Detection [6.367999777464464]
マルチモーダルディープフェイク検出器は 従来の融合法に依存している 多数決ルールや アンサンブル投票など
本稿では,マルチモーダル融合モデルアーキテクチャを検索するための包括的アプローチを提供する,Straight-through Gumbel-Softmaxフレームワークを提案する。
FakeAVCelebとSWAN-DFデータセットの実験では、最小のモデルパラメータでAUCの94.4%が達成された。
論文 参考訳(メタデータ) (2024-06-19T09:26:22Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - Triple-level Model Inferred Collaborative Network Architecture for Video
Deraining [43.06607185181434]
我々は,協調最適化と自動探索機構を用いてネットワークアーキテクチャを推定するモデル誘導三段階最適化フレームワークを開発した。
我々のモデルは、最先端の作業よりも忠実度と時間的一貫性が著しく向上したことを示している。
論文 参考訳(メタデータ) (2021-11-08T13:09:00Z) - Efficient Data-specific Model Search for Collaborative Filtering [56.60519991956558]
協調フィルタリング(CF)はレコメンダシステムの基本的なアプローチである。
本稿では,機械学習(AutoML)の最近の進歩を動機として,データ固有のCFモデルを設計することを提案する。
ここでキーとなるのは、最先端(SOTA)のCFメソッドを統一し、それらを入力エンコーディング、埋め込み関数、インタラクション、予測関数の非結合ステージに分割する新しいフレームワークである。
論文 参考訳(メタデータ) (2021-06-14T14:30:32Z) - Lightweight Image Super-Resolution with Hierarchical and Differentiable
Neural Architecture Search [38.83764580480486]
単一画像スーパーリゾリューション(SISR)タスクは、ディープニューラルネットワークで大きなパフォーマンスを達成しました。
本稿では, セルレベルとネットワークレベルの両方に対して, 軽量SISRモデル検索のための新しい微分可能なニューラルアーキテクチャ探索手法を提案する。
論文 参考訳(メタデータ) (2021-05-09T13:30:16Z) - AutoPose: Searching Multi-Scale Branch Aggregation for Pose Estimation [96.29533512606078]
本稿では,新しいニューラルアーキテクチャサーチ(NAS)フレームワークであるAutoPoseを紹介する。
高精度で高解像度な2次元ポーズ推定に向けて、クロススケール接続の複数の並列ブランチを自動的に検出することができる。
論文 参考訳(メタデータ) (2020-08-16T22:27:43Z) - When Residual Learning Meets Dense Aggregation: Rethinking the
Aggregation of Deep Neural Networks [57.0502745301132]
我々は,グローバルな残差学習と局所的なマイクロセンスアグリゲーションを備えた新しいアーキテクチャであるMicro-Dense Netsを提案する。
我々のマイクロセンスブロックはニューラルアーキテクチャ検索に基づくモデルと統合して性能を向上させることができる。
論文 参考訳(メタデータ) (2020-04-19T08:34:52Z) - Deep-n-Cheap: An Automated Search Framework for Low Complexity Deep
Learning [3.479254848034425]
私たちはディープラーニングモデルを探すためのオープンソースのAutoMLフレームワークであるDeep-n-Cheapを紹介します。
私たちのフレームワークは、ベンチマークとカスタムデータセットの両方へのデプロイをターゲットとしています。
Deep-n-Cheapには、トレーニング時間やパラメータ数とパフォーマンスをトレードオフする、ユーザ管理可能な複雑性ペナルティが含まれている。
論文 参考訳(メタデータ) (2020-03-27T13:00:21Z) - Searching Central Difference Convolutional Networks for Face
Anti-Spoofing [68.77468465774267]
顔認識システムにおいて、顔の反偽造(FAS)が重要な役割を担っている。
最先端のFASメソッドの多くは、スタック化された畳み込みと専門家が設計したネットワークに依存している。
ここでは、中央差分畳み込み(CDC)に基づくフレームレベルの新しいFAS手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T12:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。