論文の概要: LoRA-like Calibration for Multimodal Deception Detection using ATSFace
Data
- arxiv url: http://arxiv.org/abs/2309.01383v1
- Date: Mon, 4 Sep 2023 06:22:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 19:43:01.481489
- Title: LoRA-like Calibration for Multimodal Deception Detection using ATSFace
Data
- Title(参考訳): ATSFaceデータを用いたマルチモーダル偽装検出のためのLoRAライクな校正
- Authors: Shun-Wen Hsiao and Cheng-Yuan Sun
- Abstract要約: 本稿では,ビデオデータや誤認識のダイナミクスに固有の課題に対処する,注意を意識したニューラルネットワークを提案する。
我々は、精度を高めるマルチモーダル融合戦略を採用し、実生活の試行データセット上で92%の精度で精度を向上する。
- 参考スコア(独自算出の注目度): 1.550120821358415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, deception detection on human videos is an eye-catching techniques
and can serve lots applications. AI model in this domain demonstrates the high
accuracy, but AI tends to be a non-interpretable black box. We introduce an
attention-aware neural network addressing challenges inherent in video data and
deception dynamics. This model, through its continuous assessment of visual,
audio, and text features, pinpoints deceptive cues. We employ a multimodal
fusion strategy that enhances accuracy; our approach yields a 92\% accuracy
rate on a real-life trial dataset. Most important of all, the model indicates
the attention focus in the videos, providing valuable insights on deception
cues. Hence, our method adeptly detects deceit and elucidates the underlying
process. We further enriched our study with an experiment involving students
answering questions either truthfully or deceitfully, resulting in a new
dataset of 309 video clips, named ATSFace. Using this, we also introduced a
calibration method, which is inspired by Low-Rank Adaptation (LoRA), to refine
individual-based deception detection accuracy.
- Abstract(参考訳): 近年,人間のビデオにおける欺き検出は目を引く技術であり,多くの応用が期待できる。
この領域のAIモデルは高い精度を示しているが、AIは解釈不能なブラックボックスである傾向がある。
本稿では,映像データとデセプションダイナミクスに固有の課題に注意を向けたニューラルネットワークを提案する。
このモデルは、視覚、音声、テキストの機能の継続的な評価を通じて、欺きの手がかりをピンポイントする。
我々は精度を高めるマルチモーダル・フュージョン・ストラテジーを用いており、本手法は実生活における試行データセットの精度を92%向上させる。
もっとも重要なのは、このモデルがビデオの注目度を示し、偽造の手がかりに関する貴重な洞察を提供することだ。
そこで,本手法は誤認識を検知し,基礎となる過程を解明する。
我々はさらに、学生が真実または偽りの質問に答える実験によって、309本のビデオクリップを新たにデータセット化した。
これを用いて,ローランド適応(LoRA)にインスパイアされた校正手法を導入し,個人による偽装検出の精度を向上させる。
関連論文リスト
- A Multimodal Framework for Deepfake Detection [0.0]
AIを使って合成メディアを作るDeepfakesは、ビデオやオーディオを説得力を持って修正して、現実を正しく表現する。
我々の研究は、革新的なマルチモーダルアプローチを通じて、ディープフェイクの重要な問題に対処する。
枠組みは視覚的・聴覚的分析を併用し,精度は94%であった。
論文 参考訳(メタデータ) (2024-10-04T14:59:10Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Cloud based Scalable Object Recognition from Video Streams using
Orientation Fusion and Convolutional Neural Networks [11.44782606621054]
畳み込みニューラルネットワーク(CNN)は、インテリジェントな視覚オブジェクト認識を行うために広く利用されている。
CNNはいまだに深刻な精度低下、特に照明変動データセットに悩まされている。
視覚オブジェクト認識のための方向融合に基づく新しいCNN手法を提案する。
論文 参考訳(メタデータ) (2021-06-19T07:15:15Z) - Improving the Efficiency and Robustness of Deepfakes Detection through
Precise Geometric Features [13.033517345182728]
Deepfakesは、ターゲットの顔を元の顔にビデオで移植する悪質なテクニックの1つだ。
これまでのDeepfakesビデオ検出の取り組みは主に外観機能に焦点を当てており、高度な操作によってバイパスされるリスクがある。
高精度な幾何学的特徴を時間的モデル化してDeepfakesビデオを検出するための効率的かつ堅牢なフレームワークLRNetを提案します。
論文 参考訳(メタデータ) (2021-04-09T16:57:55Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z) - Video Anomaly Detection Using Pre-Trained Deep Convolutional Neural Nets
and Context Mining [2.0646127669654835]
本稿では,事前学習した畳み込みニューラルネットモデルを用いて特徴抽出とコンテキストマイニングを行う方法について述べる。
我々は,高レベルの特徴から文脈特性を導出し,ビデオ異常検出法の性能をさらに向上させる。
論文 参考訳(メタデータ) (2020-10-06T00:26:14Z) - Any-Shot Sequential Anomaly Detection in Surveillance Videos [36.24563211765782]
本稿では,トランスファーラーニングとノンショットラーニングを用いた監視ビデオのオンライン異常検出手法を提案する。
提案アルゴリズムは,トランスファー学習のためのニューラルネットワークモデルの特徴抽出能力と,統計的検出手法のノンショット学習能力を利用する。
論文 参考訳(メタデータ) (2020-04-05T02:15:45Z) - Self-trained Deep Ordinal Regression for End-to-End Video Anomaly
Detection [114.9714355807607]
ビデオ異常検出に自己学習深層順序回帰を適用することで,既存の手法の2つの重要な限界を克服できることを示す。
我々は,手動で正規/異常データをラベル付けすることなく,共同表現学習と異常スコアリングを可能にする,エンドツーエンドのトレーニング可能なビデオ異常検出手法を考案した。
論文 参考訳(メタデータ) (2020-03-15T08:44:55Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。