論文の概要: Multiscale Adaptive Conflict-Balancing Model For Multimedia Deepfake Detection
- arxiv url: http://arxiv.org/abs/2505.12966v1
- Date: Mon, 19 May 2025 11:01:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.546496
- Title: Multiscale Adaptive Conflict-Balancing Model For Multimedia Deepfake Detection
- Title(参考訳): マルチメディアディープフェイク検出のためのマルチスケール適応衝突分散モデル
- Authors: Zihan Xiong, Xiaohua Wu, Lei Chen, Fangqi Lou,
- Abstract要約: マルチモーダル検出法は、モダリティ間の不均衡学習によって制限されている。
本稿では,モダリティの対立を緩和し,無視を改善するために,MACB-DF(Audio-Visual Joint Learning Method)を提案する。
提案手法は,従来のベストパフォーマンス手法に比べて,ACCスコアの8.0%と7.7%の絶対的な改善を達成し,優れたクロスデータセット一般化能力を示す。
- 参考スコア(独自算出の注目度): 4.849608823153888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in computer vision and deep learning have blurred the line between deepfakes and authentic media, undermining multimedia credibility through audio-visual forgery. Current multimodal detection methods remain limited by unbalanced learning between modalities. To tackle this issue, we propose an Audio-Visual Joint Learning Method (MACB-DF) to better mitigate modality conflicts and neglect by leveraging contrastive learning to assist in multi-level and cross-modal fusion, thereby fully balancing and exploiting information from each modality. Additionally, we designed an orthogonalization-multimodal pareto module that preserves unimodal information while addressing gradient conflicts in audio-video encoders caused by differing optimization targets of the loss functions. Extensive experiments and ablation studies conducted on mainstream deepfake datasets demonstrate consistent performance gains of our model across key evaluation metrics, achieving an average accuracy of 95.5% across multiple datasets. Notably, our method exhibits superior cross-dataset generalization capabilities, with absolute improvements of 8.0% and 7.7% in ACC scores over the previous best-performing approach when trained on DFDC and tested on DefakeAVMiT and FakeAVCeleb datasets.
- Abstract(参考訳): コンピュータビジョンとディープラーニングの進歩は、ディープフェイクと本物のメディアの境界を曖昧にし、オーディオと視覚の偽造によってマルチメディアの信頼性を損なう。
現在のマルチモーダル検出法は、モダリティ間の不均衡学習によって制限されている。
この問題に対処するために,マルチレベル・クロスモーダル融合を支援するためにコントラスト学習を活用することで,モダリティの対立を緩和し,無視を緩和する音響・視覚共同学習法(MACB-DF)を提案する。
さらに、損失関数の最適化目標の相違によるオーディオビデオエンコーダの勾配コンフリクトに対処しながら、一様情報を保存する直交化多重モーダルパレートモジュールを設計した。
主流のディープフェイクデータセットで実施された大規模な実験とアブレーション研究は、主要な評価指標間でモデルの一貫したパフォーマンス向上を示し、複数のデータセットで平均95.5%の精度を達成する。
特に,DFDCでトレーニングし,DefakeAVMiTおよびFakeAVCelebデータセットでテストした場合に,ACCスコアの8.0%と7.7%の絶対的な改善が得られた。
関連論文リスト
- DPU: Dynamic Prototype Updating for Multimodal Out-of-Distribution Detection [10.834698906236405]
機械学習モデルの堅牢性を保証するためには、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。
マルチモーダルモデルの最近の進歩は、検出性能を高めるために複数のモダリティを活用する可能性を示している。
マルチモーダルOOD検出のための新しいプラグイン・アンド・プレイフレームワークであるDynamic Prototype Updating (DPU)を提案する。
論文 参考訳(メタデータ) (2024-11-12T22:43:16Z) - Analytic Continual Test-Time Adaptation for Multi-Modality Corruption [23.545997349882857]
テスト時間適応(TTA)は、トレーニング済みのモデルがソースとターゲットデータセット間のギャップを埋めることを支援することを目的としている。
本稿では,MM-CTTAタスクのためのMDAA(Multi-modality Dynamic Analytic Adapter)を提案する。
MDAAはMM-CTTA上での最先端性能を実現し,信頼性の高いモデル適応を実現する。
論文 参考訳(メタデータ) (2024-10-29T01:21:24Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised
Audio-Visual Video Parsing [107.031903351176]
弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。
WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
論文 参考訳(メタデータ) (2023-07-05T05:55:10Z) - Disentangled Multi-Fidelity Deep Bayesian Active Learning [19.031567953748453]
マルチ忠実能動学習は、入力パラメータからシミュレーション出力への直接マッピングを最も高い忠実度で学習することを目的としている。
深層学習に基づく手法は、しばしば隠れ表現に階層構造を課し、低忠実度から高忠実度への情報伝達のみをサポートする。
本稿では,D-MFDAL(Disentangled Multi-fidelity Deep Bayesian Active Learning)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-07T23:14:58Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z) - Inertial Hallucinations -- When Wearable Inertial Devices Start Seeing
Things [82.15959827765325]
環境支援型生活(AAL)のためのマルチモーダルセンサフュージョンの新しいアプローチを提案する。
我々は、標準マルチモーダルアプローチの2つの大きな欠点、限られた範囲のカバレッジ、信頼性の低下に対処する。
我々の新しいフレームワークは、三重項学習によるモダリティ幻覚の概念を融合させ、異なるモダリティを持つモデルを訓練し、推論時に欠落したセンサーに対処する。
論文 参考訳(メタデータ) (2022-07-14T10:04:18Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。