論文の概要: Multimodal Deception Detection in Videos via Analyzing Emotional
State-based Feature
- arxiv url: http://arxiv.org/abs/2104.08373v1
- Date: Fri, 16 Apr 2021 21:20:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 13:59:37.842216
- Title: Multimodal Deception Detection in Videos via Analyzing Emotional
State-based Feature
- Title(参考訳): 情緒的特徴の分析によるビデオのマルチモーダル・デセプション検出
- Authors: Jun-Teng Yang, Guei-Ming Liu, Scott C.-H Huang
- Abstract要約: 感情状態に基づく新しい特徴を構築するためのマルチモーダル認知検出フレームワークを提案する。
ビジュアルモダリティとオーディオモダリティの両方から得られた感情状態情報を結合する投票方式も設計されている。
全体の性能は84.16%から91.67%、ROC-AUCは0.9211から0.9244に大幅に向上している。
- 参考スコア(独自算出の注目度): 1.8477401359673706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deception detection is an important task that has been a hot research topic
due to its potential applications. It can be applied to many areas from
national security (e.g, airport security, jurisprudence, and law enforcement)
to real-life applications (e.g., business and computer vision). However, some
critical problems still exist and worth more investigation. One of the major
challenges is the data scarcity problem. Until now, only one multimodal
benchmark dataset on deception detection has been published, which contains 121
video clips for deception detection (61 for deceptive class and 60 for truthful
class). This amount of data is hard to drive deep neural network-based methods.
Hence, they often suffered from the overfitting problem and the bad
generalization ability. Also, the ground truth data contains some unusable
frames for many factors including the face is too small to be recognized the
facial expression, face is covered by text, file corruption, etc.
However, most of the literature did not consider these problems. In this
paper, we design a series of data preprocessing methods to deal with the
problem first. Then, we propose a multimodal deception detection framework to
construct our novel emotional state-based feature and used open toolkit
openSMILE to extract the features from audio modality. A voting scheme is also
designed to combine the emotional state information obtained from both visual
modality and audio modality. Finally, the novel emotion state transformation
(EST) feature is determined by our algorithm. The critical analysis and
comparison of the proposed methods with the state-of-the-art multimodal method
are showed that the overall performance has a great improvement of accuracy
from 84.16% to 91.67% and ROC-AUC from 0.9211 to 0.9244.
- Abstract(参考訳): 騙し検出は、その潜在的な応用のためにホットな研究課題となっている重要な課題である。
セキュリティ(空港のセキュリティ、司法権、法執行機関など)から現実のアプリケーション(ビジネスやコンピュータビジョンなど)まで、さまざまな分野に適用することができる。
しかし、いくつかの重要な問題が残っており、さらなる調査に値する。
主な課題の1つは、データ不足の問題である。
これまで、偽造検出のマルチモーダルベンチマークデータセットは1つしか公開されておらず、偽造検出用のビデオクリップは121本(偽造クラスは61本、真偽クラスは60本)である。
この量のデータは、ディープニューラルネットワークベースのメソッドを動かすのは難しい。
それゆえ、彼らはしばしば過剰フィット問題と悪質な一般化能力に苦しんだ。
また、基底真理データには、顔が小さすぎて表情が認識できない、顔がテキストでカバーされている、ファイルの破損など、多くの要因に対する使用不能なフレームが含まれている。
しかし、ほとんどの文献はこれらの問題を考慮しなかった。
本稿では,この問題にまず対処すべく,一連のデータ前処理手法を設計する。
そこで我々は,新しい感情状態に基づく機能を構築するマルチモーダル・デセプション検出フレームワークを提案し,open toolkit opensmileを用いて音声モダリティから特徴を抽出する。
ビジュアルモダリティとオーディオモダリティの両方から得られた感情状態情報を結合する投票方式も設計されている。
最後に,新しい感情状態変換(est)機能はアルゴリズムによって決定される。
提案手法を最先端マルチモーダル法と比較した結果, 全体の性能は84.16%から91.67%, ROC-AUCは0.9211から0.9244に向上した。
関連論文リスト
- SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection
with Multimodal Large Language Models [63.946809247201905]
フェーススプーフィングと偽造検出におけるMLLMの能力を評価するための新しいベンチマーク、ShielDを導入する。
我々は、これらの2つの顔セキュリティタスクにおいて、マルチモーダル顔データを評価するために、真/偽/複数選択の質問を設計する。
その結果,MLLMは顔セキュリティ領域において大きな可能性を秘めていることがわかった。
論文 参考訳(メタデータ) (2024-02-06T17:31:36Z) - Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。
トピックと検出性能の間に有意な相関関係が発見された。
これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文 参考訳(メタデータ) (2023-12-20T10:53:53Z) - LoRA-like Calibration for Multimodal Deception Detection using ATSFace
Data [1.550120821358415]
本稿では,ビデオデータや誤認識のダイナミクスに固有の課題に対処する,注意を意識したニューラルネットワークを提案する。
我々は、精度を高めるマルチモーダル融合戦略を採用し、実生活の試行データセット上で92%の精度で精度を向上する。
論文 参考訳(メタデータ) (2023-09-04T06:22:25Z) - Reducing False Alarms in Video Surveillance by Deep Feature Statistical
Modeling [16.311150636417256]
我々は, 深部特徴の高次元統計的モデリングに基づいて, 弱教師付きa-コントラリオ検証法を開発した。
実験結果から,提案したa-contrarioバリデーションにより,画素レベルとオブジェクトレベルの偽アラームの回数を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2023-07-09T12:37:17Z) - A new face swap method for image and video domains: a technical report [60.47144478048589]
FaceShifterアーキテクチャに基づいた新しいフェイススワップパイプラインを導入する。
新しいアイロス機能、超解像ブロック、ガウスベースのフェイスマスク生成は、品質改善につながる。
論文 参考訳(メタデータ) (2022-02-07T10:15:50Z) - Audio-visual Representation Learning for Anomaly Events Detection in
Crowds [119.72951028190586]
本稿では,音声と視覚信号の同時モデリングにおけるマルチモーダル学習の活用を試みる。
監視シーンにおける合成音声視覚データセットであるSHADEデータセットについて実験を行った。
音声信号の導入は,異常事象の検出性能を効果的に向上し,他の最先端手法よりも優れることがわかった。
論文 参考訳(メタデータ) (2021-10-28T02:42:48Z) - A Compact Deep Learning Model for Face Spoofing Detection [4.250231861415827]
プレゼンテーションアタック検出(PAD)は研究コミュニティから大きな注目を集めている。
我々は、統一されたニューラルネットワークアーキテクチャにおいて、幅広い機能と深い機能の両方を融合することで、この問題に対処する。
この手順は、ROSE-Youtu、SiW、NUAA Imposterなどのさまざまなスプーフィングデータセットで行われます。
論文 参考訳(メタデータ) (2021-01-12T21:20:09Z) - Fast Facial Landmark Detection and Applications: A Survey [0.0]
ここ数年で品質が大幅に向上したアプローチは、大きなポーズと感情の多様性を持つデータセットに重点を置いています。
そこで我々は,300-W,AFLW,WFLW,COFWという,難易度と最新度のデータセットの品質比較を行った。
論文 参考訳(メタデータ) (2021-01-12T09:40:40Z) - MixNet for Generalized Face Presentation Attack Detection [63.35297510471997]
我々は、プレゼンテーションアタックを検出するための、TextitMixNetと呼ばれるディープラーニングベースのネットワークを提案している。
提案アルゴリズムは最先端の畳み込みニューラルネットワークアーキテクチャを利用して,各攻撃カテゴリの特徴マッピングを学習する。
論文 参考訳(メタデータ) (2020-10-25T23:01:13Z) - Online Anomaly Detection in Surveillance Videos with Asymptotic Bounds
on False Alarm Rate [36.24563211765782]
本稿では,誤報率に制約のある監視ビデオにおけるオンライン異常検出手法を提案する。
提案アルゴリズムは,多目的ディープラーニングモジュールと統計的異常検出モジュールから構成される。
論文 参考訳(メタデータ) (2020-10-10T04:46:16Z) - From Handcrafted to Deep Features for Pedestrian Detection: A Survey [148.35460817092908]
歩行者検出はコンピュータビジョンにおいて重要であるが難しい問題である。
過去10年間で、手作りの機能と深い機能によって、大幅な改善が見られた。
単スペクトル歩行者検出に加えて,多スペクトル歩行者検出も検討した。
論文 参考訳(メタデータ) (2020-10-01T14:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。