Fugu-MT 論文翻訳(概要): Enhancing Lie Detection Accuracy: A Comparative Study of Classic ML, CNN, and GCN Models using Audio-Visual Features

論文の概要: Enhancing Lie Detection Accuracy: A Comparative Study of Classic ML, CNN, and GCN Models using Audio-Visual Features

arxiv url: http://arxiv.org/abs/2411.08885v1
Date: Sat, 26 Oct 2024 22:17:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:47.418041
Title: Enhancing Lie Detection Accuracy: A Comparative Study of Classic ML, CNN, and GCN Models using Audio-Visual Features
Title（参考訳）: リー検出精度の向上:古典的ML, CNN, GCNモデルの比較検討
Authors: Abdelrahman Abdelwahab, Abdelrahman Abdelwahab, Ayaan Vaswani, Advait Bharathulwar, Arnav Kommaraju,
Abstract要約: ポリグラフ検査の不正確さは、しばしば誤った信念、誤った情報、偏見につながる。騙しを検出する方法として、顔の微小表現を解析する手法が登場した。 CNN Conv1Dマルチモーダルモデルは平均95.4%の精度を達成した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Inaccuracies in polygraph tests often lead to wrongful convictions, false information, and bias, all of which have significant consequences for both legal and political systems. Recently, analyzing facial micro-expressions has emerged as a method for detecting deception; however, current models have not reached high accuracy and generalizability. The purpose of this study is to aid in remedying these problems. The unique multimodal transformer architecture used in this study improves upon previous approaches by using auditory inputs, visual facial micro-expressions, and manually transcribed gesture annotations, moving closer to a reliable non-invasive lie detection model. Visual and auditory features were extracted using the Vision Transformer and OpenSmile models respectively, which were then concatenated with the transcriptions of participants micro-expressions and gestures. Various models were trained for the classification of lies and truths using these processed and concatenated features. The CNN Conv1D multimodal model achieved an average accuracy of 95.4%. However, further research is still required to create higher-quality datasets and even more generalized models for more diverse applications.
Abstract（参考訳）: ポリグラフ検査の不正確さは、しばしば誤った有罪判決、偽情報、偏見につながる。近年, 顔のマイクロ表現の分析が詐欺検出の手法として登場しているが, 現在のモデルでは高い精度と一般化性は得られていない。本研究の目的は,これらの問題を修復することである。本研究で使用されるユニークなマルチモーダルトランスフォーマーアーキテクチャは,聴覚入力,視覚マイクロ表現,手書きのジェスチャーアノテーションを用いて,信頼性の高い非侵襲的嘘検出モデルに近づくことによって,従来のアプローチを改良する。視覚的特徴と聴覚的特徴は、それぞれVision TransformerとOpenSmileモデルを用いて抽出され、参加者のマイクロ表現とジェスチャーの書き起こしと連結された。様々なモデルが、これらの処理および連結された特徴を用いて、嘘と真実の分類のために訓練された。 CNN Conv1Dマルチモーダルモデルは平均95.4%の精度を達成した。しかし、高品質なデータセットや、より多様なアプリケーションのためのより一般化されたモデルを作成するためには、さらなる研究が必要である。

関連論文リスト

Through the Static: Demystifying Malware Visualization via Explainability [15.43868945929965]
畳み込みニューラルネットワーク(CNN)の堅牢性と説明可能性について検討する。本研究は,6つのCNNモデルを複製し,その落とし穴を探索することによって,これらのギャップに対処する。このアプローチは、データセット全体で2%から8%のF1スコアを大幅に改善する。
論文参考訳（メタデータ） (2025-03-04T09:38:50Z)
Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文参考訳（メタデータ） (2024-11-28T13:04:45Z)
Unveiling and Mitigating Bias in Audio Visual Segmentation [9.427676046134374]
コミュニティ研究者は、物体のマスクの音質を改善するために、様々な高度なオーディオ視覚セグメンテーションモデルを開発した。これらのモデルによって作られたマスクは、最初は可塑性に見えるかもしれないが、しばしば誤った接地論理を持つ異常を示す。我々はこれを、複雑なオーディオ・視覚的グラウンドよりも単純な学習信号として、現実世界固有の嗜好と分布に帰着する。
論文参考訳（メタデータ） (2024-07-23T16:55:04Z)
A Reliable Framework for Human-in-the-Loop Anomaly Detection in Time Series [17.08674819906415]
HILADは、人間とAIの動的かつ双方向なコラボレーションを促進するために設計された、新しいフレームワークである。ビジュアルインターフェースを通じて、HILADはドメインの専門家に、大規模な予期せぬモデルの振る舞いを検出し、解釈し、修正する権限を与えます。
論文参考訳（メタデータ） (2024-05-06T07:44:07Z)
Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文参考訳（メタデータ） (2024-05-03T15:27:11Z)
Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文参考訳（メタデータ） (2024-03-19T09:28:19Z)
Multilingual and Multi-topical Benchmark of Fine-tuned Language models and Large Language Models for Check-Worthy Claim Detection [1.4779899760345434]
本研究では,(1)微調整言語モデルと(2)チェック価値のあるクレーム検出タスクにおける大規模言語モデルの性能を比較した。様々なソースやスタイルのテキストからなる多言語・多言語データセットを構築した。
論文参考訳（メタデータ） (2023-11-10T15:36:35Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
Fake It Till You Make It: Near-Distribution Novelty Detection by Score-Based Generative Models [54.182955830194445]
既存のモデルは、いわゆる"近く分布"設定で失敗するか、劇的な低下に直面します。本稿では, スコアに基づく生成モデルを用いて, 合成近分布異常データを生成することを提案する。本手法は,9つのノベルティ検出ベンチマークにおいて,近分布ノベルティ検出を6%改善し,最先端のノベルティ検出を1%から5%パスする。
論文参考訳（メタデータ） (2022-05-28T02:02:53Z)
MEMO: Test Time Robustness via Adaptation and Augmentation [131.28104376280197]
テスト時間ロバスト化の問題、すなわちモデルロバスト性を改善するためにテストインプットを用いて検討する。最近の先行研究ではテスト時間適応法が提案されているが、それぞれ追加の仮定を導入している。モデルが確率的で適応可能な任意のテスト環境で使用できるシンプルなアプローチを提案する。
論文参考訳（メタデータ） (2021-10-18T17:55:11Z)
Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文参考訳（メタデータ） (2020-11-14T17:09:03Z)
Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。 4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文参考訳（メタデータ） (2020-02-27T10:22:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。