Fugu-MT 論文翻訳(概要): Multimodal Deception Detection in Videos via Analyzing Emotional State-based Feature

論文の概要: Multimodal Deception Detection in Videos via Analyzing Emotional State-based Feature

arxiv url: http://arxiv.org/abs/2104.08373v1
Date: Fri, 16 Apr 2021 21:20:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-20 13:59:37.842216
Title: Multimodal Deception Detection in Videos via Analyzing Emotional State-based Feature
Title（参考訳）: 情緒的特徴の分析によるビデオのマルチモーダル・デセプション検出
Authors: Jun-Teng Yang, Guei-Ming Liu, Scott C.-H Huang
Abstract要約: 感情状態に基づく新しい特徴を構築するためのマルチモーダル認知検出フレームワークを提案する。ビジュアルモダリティとオーディオモダリティの両方から得られた感情状態情報を結合する投票方式も設計されている。全体の性能は84.16%から91.67%、ROC-AUCは0.9211から0.9244に大幅に向上している。
参考スコア（独自算出の注目度）: 1.8477401359673706
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deception detection is an important task that has been a hot research topic due to its potential applications. It can be applied to many areas from national security (e.g, airport security, jurisprudence, and law enforcement) to real-life applications (e.g., business and computer vision). However, some critical problems still exist and worth more investigation. One of the major challenges is the data scarcity problem. Until now, only one multimodal benchmark dataset on deception detection has been published, which contains 121 video clips for deception detection (61 for deceptive class and 60 for truthful class). This amount of data is hard to drive deep neural network-based methods. Hence, they often suffered from the overfitting problem and the bad generalization ability. Also, the ground truth data contains some unusable frames for many factors including the face is too small to be recognized the facial expression, face is covered by text, file corruption, etc. However, most of the literature did not consider these problems. In this paper, we design a series of data preprocessing methods to deal with the problem first. Then, we propose a multimodal deception detection framework to construct our novel emotional state-based feature and used open toolkit openSMILE to extract the features from audio modality. A voting scheme is also designed to combine the emotional state information obtained from both visual modality and audio modality. Finally, the novel emotion state transformation (EST) feature is determined by our algorithm. The critical analysis and comparison of the proposed methods with the state-of-the-art multimodal method are showed that the overall performance has a great improvement of accuracy from 84.16% to 91.67% and ROC-AUC from 0.9211 to 0.9244.
Abstract（参考訳）: 騙し検出は、その潜在的な応用のためにホットな研究課題となっている重要な課題である。セキュリティ(空港のセキュリティ、司法権、法執行機関など)から現実のアプリケーション(ビジネスやコンピュータビジョンなど)まで、さまざまな分野に適用することができる。しかし、いくつかの重要な問題が残っており、さらなる調査に値する。主な課題の1つは、データ不足の問題である。これまで、偽造検出のマルチモーダルベンチマークデータセットは1つしか公開されておらず、偽造検出用のビデオクリップは121本(偽造クラスは61本、真偽クラスは60本)である。この量のデータは、ディープニューラルネットワークベースのメソッドを動かすのは難しい。それゆえ、彼らはしばしば過剰フィット問題と悪質な一般化能力に苦しんだ。また、基底真理データには、顔が小さすぎて表情が認識できない、顔がテキストでカバーされている、ファイルの破損など、多くの要因に対する使用不能なフレームが含まれている。しかし、ほとんどの文献はこれらの問題を考慮しなかった。本稿では,この問題にまず対処すべく,一連のデータ前処理手法を設計する。そこで我々は,新しい感情状態に基づく機能を構築するマルチモーダル・デセプション検出フレームワークを提案し,open toolkit opensmileを用いて音声モダリティから特徴を抽出する。ビジュアルモダリティとオーディオモダリティの両方から得られた感情状態情報を結合する投票方式も設計されている。最後に,新しい感情状態変換(est)機能はアルゴリズムによって決定される。提案手法を最先端マルチモーダル法と比較した結果, 全体の性能は84.16%から91.67%, ROC-AUCは0.9211から0.9244に向上した。

関連論文リスト

DeepFake Doctor: Diagnosing and Treating Audio-Video Fake Detection [21.703619021132333]
最近のDeepFake検出アプローチは、マルチモーダル(オーディオビデオ)脅威シナリオを探索している。既存のデータセットには重大な問題がある。我々は、Simple Multimodal BAseline (SIMBA)を導入し、将来的な緩和戦略を示す。
論文参考訳（メタデータ） (2025-06-06T08:10:54Z)
A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning [9.786907179872815]
視覚と言語の可能性は、いまだに偽造検出に過小評価されている。顔偽造検出を視覚質問応答(VQA)タスクに変換する方法論が必要である。このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。
論文参考訳（メタデータ） (2024-10-01T08:16:40Z)
FFAA: Multimodal Large Language Model based Explainable Open-World Face Forgery Analysis Assistant [59.2438504610849]
FFAA: Face Forgery Analysis Assistant(MLLM)とMIDS(Multi-Awer Intelligent Decision System)について紹介する。提案手法は,ユーザフレンドリで説明可能な結果を提供するだけでなく,従来の手法に比べて精度と堅牢性を大幅に向上させる。
論文参考訳（メタデータ） (2024-08-19T15:15:20Z)
Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-02T18:45:01Z)
A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文参考訳（メタデータ） (2024-06-05T13:40:07Z)
SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large Language Models [63.946809247201905]
フェーススプーフィングと偽造検出におけるMLLMの能力を評価するための新しいベンチマーク、ShielDを導入する。我々は、これらの2つの顔セキュリティタスクにおいて、マルチモーダル顔データを評価するために、真/偽/複数選択の質問を設計する。その結果,MLLMは顔セキュリティ領域において大きな可能性を秘めていることがわかった。
論文参考訳（メタデータ） (2024-02-06T17:31:36Z)
Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。トピックと検出性能の間に有意な相関関係が発見された。これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文参考訳（メタデータ） (2023-12-20T10:53:53Z)
LoRA-like Calibration for Multimodal Deception Detection using ATSFace Data [1.550120821358415]
本稿では,ビデオデータや誤認識のダイナミクスに固有の課題に対処する,注意を意識したニューラルネットワークを提案する。我々は、精度を高めるマルチモーダル融合戦略を採用し、実生活の試行データセット上で92%の精度で精度を向上する。
論文参考訳（メタデータ） (2023-09-04T06:22:25Z)
A new face swap method for image and video domains: a technical report [60.47144478048589]
FaceShifterアーキテクチャに基づいた新しいフェイススワップパイプラインを導入する。新しいアイロス機能、超解像ブロック、ガウスベースのフェイスマスク生成は、品質改善につながる。
論文参考訳（メタデータ） (2022-02-07T10:15:50Z)
A Compact Deep Learning Model for Face Spoofing Detection [4.250231861415827]
プレゼンテーションアタック検出(PAD)は研究コミュニティから大きな注目を集めている。我々は、統一されたニューラルネットワークアーキテクチャにおいて、幅広い機能と深い機能の両方を融合することで、この問題に対処する。この手順は、ROSE-Youtu、SiW、NUAA Imposterなどのさまざまなスプーフィングデータセットで行われます。
論文参考訳（メタデータ） (2021-01-12T21:20:09Z)
MixNet for Generalized Face Presentation Attack Detection [63.35297510471997]
我々は、プレゼンテーションアタックを検出するための、TextitMixNetと呼ばれるディープラーニングベースのネットワークを提案している。提案アルゴリズムは最先端の畳み込みニューラルネットワークアーキテクチャを利用して,各攻撃カテゴリの特徴マッピングを学習する。
論文参考訳（メタデータ） (2020-10-25T23:01:13Z)
Online Anomaly Detection in Surveillance Videos with Asymptotic Bounds on False Alarm Rate [36.24563211765782]
本稿では,誤報率に制約のある監視ビデオにおけるオンライン異常検出手法を提案する。提案アルゴリズムは,多目的ディープラーニングモジュールと統計的異常検出モジュールから構成される。
論文参考訳（メタデータ） (2020-10-10T04:46:16Z)
From Handcrafted to Deep Features for Pedestrian Detection: A Survey [148.35460817092908]
歩行者検出はコンピュータビジョンにおいて重要であるが難しい問題である。過去10年間で、手作りの機能と深い機能によって、大幅な改善が見られた。単スペクトル歩行者検出に加えて,多スペクトル歩行者検出も検討した。
論文参考訳（メタデータ） (2020-10-01T14:51:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。