Fugu-MT 論文翻訳(概要): Voting-based Multimodal Automatic Deception Detection

論文の概要: Voting-based Multimodal Automatic Deception Detection

arxiv url: http://arxiv.org/abs/2307.07516v3
Date: Fri, 15 Mar 2024 15:03:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 07:32:15.653967
Title: Voting-based Multimodal Automatic Deception Detection
Title（参考訳）: 投票に基づくマルチモーダル自動偽造検出
Authors: Lana Touma, Mohammad Al Horani, Manar Tailouni, Anas Dahabiah, Khloud Al Jallad,
Abstract要約: 本稿では,音声,視覚的,語彙的特徴を用いたビデオからの不正検出のための投票方式を提案する。我々の提案した解決策は、その芸術の状態を上回ります。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatic Deception Detection has been a hot research topic for a long time, using machine learning and deep learning to automatically detect deception, brings new light to this old field. In this paper, we proposed a voting-based method for automatic deception detection from videos using audio, visual and lexical features. Experiments were done on two datasets, the Real-life trial dataset by Michigan University and the Miami University deception detection dataset. Video samples were split into frames of images, audio, and manuscripts. Our Voting-based Multimodal proposed solution consists of three models. The first model is CNN for detecting deception from images, the second model is Support Vector Machine (SVM) on Mel spectrograms for detecting deception from audio and the third model is Word2Vec on Support Vector Machine (SVM) for detecting deception from manuscripts. Our proposed solution outperforms state of the art. Best results achieved on images, audio and text were 97%, 96%, 92% respectively on Real-Life Trial Dataset, and 97%, 82%, 73% on video, audio and text respectively on Miami University Deception Detection.
Abstract（参考訳）: 自動偽証検出は長い間ホットな研究トピックであり、機械学習とディープラーニングを使って偽証を自動的に検出し、この古い分野に新たな光をもたらす。本稿では,音声,視覚的,語彙的特徴を用いたビデオからの自動偽造検出のための投票方式を提案する。ミシガン大学のリアルライフトライアルデータセットとマイアミ大学の偽装検出データセットの2つのデータセットで実験が行われた。ビデオサンプルは、画像、オーディオ、原稿のフレームに分割された。我々の投票に基づくマルチモーダル・ソリューションは3つのモデルから成り立っている。第1のモデルは画像から詐欺を検出するCNNであり、第2のモデルはMelスペクトログラム上のサポートベクトルマシン(SVM)であり、第3のモデルは原稿からの詐欺を検出するWord2Vec on Support Vector Machine(SVM)である。提案手法は最先端のソリューションよりも優れている。画像,音声,テキストで得られた最良の結果は,実生活試験データセットで97%,96%,97%,82%,動画,音声,テキストで73%であった。

関連論文リスト

MAVOS-DD: Multilingual Audio-Video Open-Set Deepfake Detection Benchmark [108.46287432944392]
マルチリンガル・オーディオ・ビデオ・ディープフェイク検出のための大規模オープンセット・ベンチマークを初めて提示する。私たちのデータセットは8つの言語で250時間以上の実ビデオと偽ビデオで構成されています。各言語について、偽ビデオは7つの異なるディープフェイク生成モデルで生成される。
論文参考訳（メタデータ） (2025-05-16T10:42:30Z)
AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。 AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文参考訳（メタデータ） (2024-12-03T17:41:23Z)
A Multi-Stream Fusion Approach with One-Class Learning for Audio-Visual Deepfake Detection [17.285669984798975]
本稿では,ロバストな音声・視覚深度検出モデルを開発する上での課題について述べる。新たな世代のアルゴリズムが絶えず出現しており、検出方法の開発中にこれらのアルゴリズムは遭遇しない。表現レベルの正規化手法として,一級学習を用いたマルチストリーム融合手法を提案する。
論文参考訳（メタデータ） (2024-06-20T10:33:15Z)
AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。 AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-19T19:01:26Z)
LoRA-like Calibration for Multimodal Deception Detection using ATSFace Data [1.550120821358415]
本稿では,ビデオデータや誤認識のダイナミクスに固有の課題に対処する,注意を意識したニューラルネットワークを提案する。我々は、精度を高めるマルチモーダル融合戦略を採用し、実生活の試行データセット上で92%の精度で精度を向上する。
論文参考訳（メタデータ） (2023-09-04T06:22:25Z)
Introducing Model Inversion Attacks on Automatic Speaker Recognition [0.9558392439655015]
モデル反転(MI)攻撃は、機械学習(ML)モデルのトレーニングデータのクラス毎の平均表現を再構築することを可能にする。本稿では,(1)訓練されたMLモデルから音声サンプルを再構成し,(2)話者の生体情報に有意な洞察を与える中間的音声特徴表現を抽出する手法を提案する。我々のスライディングMIは、オーディオサンプルの重なり合うチャンクを反復反転することで標準MIを拡張します。逆音声データを用いて話者を偽装する音声サンプルを生成し、高度にセキュアなシステムに対して音声保護コマンドを実行することができることを示す。
論文参考訳（メタデータ） (2023-01-09T08:51:15Z)
Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文参考訳（メタデータ） (2022-08-20T06:46:55Z)
A Novel Hand Gesture Detection and Recognition system based on ensemble-based Convolutional Neural Network [3.5665681694253903]
コンピュータビジョンとパターン認識コミュニティでは,手の部分検出が課題となっている。畳み込みニューラルネットワーク(CNN)アーキテクチャのようなディープラーニングアルゴリズムは、分類タスクにおいて非常に一般的な選択肢となっている。本稿では,CNNに基づくアプローチのアンサンブルを用いて,予測時の高分散や過度な問題,予測誤差などの問題を克服する。
論文参考訳（メタデータ） (2022-02-25T06:46:58Z)
Audio-visual Representation Learning for Anomaly Events Detection in Crowds [119.72951028190586]
本稿では,音声と視覚信号の同時モデリングにおけるマルチモーダル学習の活用を試みる。監視シーンにおける合成音声視覚データセットであるSHADEデータセットについて実験を行った。音声信号の導入は,異常事象の検出性能を効果的に向上し,他の最先端手法よりも優れることがわかった。
論文参考訳（メタデータ） (2021-10-28T02:42:48Z)
Multimodal Attention Fusion for Target Speaker Extraction [108.73502348754842]
マルチモーダル核融合のための新しい注意機構とその訓練方法を提案する。シミュレーションデータに対する従来の核融合機構よりも,信号対歪み比(SDR)を1.0dB向上させる。
論文参考訳（メタデータ） (2021-02-02T05:59:35Z)
Automatic Curation of Large-Scale Datasets for Audio-Visual Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文参考訳（メタデータ） (2021-01-26T14:27:47Z)
Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文参考訳（メタデータ） (2020-03-14T22:07:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。