論文の概要: Benchmarking Cross-Domain Audio-Visual Deception Detection
- arxiv url: http://arxiv.org/abs/2405.06995v2
- Date: Sat, 05 Oct 2024 07:32:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:09:19.112620
- Title: Benchmarking Cross-Domain Audio-Visual Deception Detection
- Title(参考訳): クロスドメイン・オーディオ・ビジュアル・デセプションのベンチマーク
- Authors: Xiaobao Guo, Zitong Yu, Nithish Muthuchamy Selvaraj, Bingquan Shen, Adams Wai-Kin Kong, Alex C. Kot,
- Abstract要約: 本稿では,最初のクロスドメイン音声・視覚的誤認検出ベンチマークを提案する。
シングル・ツー・シングルとマルチ・ツー・シングル・ドメインの一般化性能を比較した。
一般化性能を向上させるアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 45.342156006617394
- License:
- Abstract: Automated deception detection is crucial for assisting humans in accurately assessing truthfulness and identifying deceptive behavior. Conventional contact-based techniques, like polygraph devices, rely on physiological signals to determine the authenticity of an individual's statements. Nevertheless, recent developments in automated deception detection have demonstrated that multimodal features derived from both audio and video modalities may outperform human observers on publicly available datasets. Despite these positive findings, the generalizability of existing audio-visual deception detection approaches across different scenarios remains largely unexplored. To close this gap, we present the first cross-domain audio-visual deception detection benchmark, that enables us to assess how well these methods generalize for use in real-world scenarios. We used widely adopted audio and visual features and different architectures for benchmarking, comparing single-to-single and multi-to-single domain generalization performance. To further exploit the impacts using data from multiple source domains for training, we investigate three types of domain sampling strategies, including domain-simultaneous, domain-alternating, and domain-by-domain for multi-to-single domain generalization evaluation. We also propose an algorithm to enhance the generalization performance by maximizing the gradient inner products between modality encoders, named ``MM-IDGM". Furthermore, we proposed the Attention-Mixer fusion method to improve performance, and we believe that this new cross-domain benchmark will facilitate future research in audio-visual deception detection.
- Abstract(参考訳): 自動偽造検出は、人間の真偽を正確に評価し、偽造行為を特定するのに不可欠である。
従来のコンタクトベースの技術、例えばポリグラフ装置は、個人の言明の正当性を決定するために生理的信号に依存している。
しかし、近年の自動偽造検出の進歩は、音声とビデオの両方から派生したマルチモーダル機能が、公開データセット上で人間の観察者より優れていることを証明している。
これらの肯定的な発見にもかかわらず、様々なシナリオにまたがる既存の音声・視覚的偽装検出手法の一般化可能性はほとんど未解明のままである。
このギャップを埋めるために、我々は、これらの手法が現実世界のシナリオでどのように利用されるかを評価することができる、最初のクロスドメインオーディオ・視覚的偽装検出ベンチマークを提示する。
我々は、シングル・ツー・シングル領域の一般化性能とマルチ・ツー・シングル領域の一般化性能を比較して、広く採用されている音声と視覚の特徴と異なるアーキテクチャをベンチマークに用いた。
本研究は、複数のソースドメインから得られるデータを用いてトレーニングを行うために、ドメイン間同時、ドメイン交代、ドメイン・バイ・ドメインを含む3種類のドメインサンプリング戦略を調査し、マルチ・シングル領域の一般化評価を行う。
また, <`MM-IDGM> と呼ばれるモダリティエンコーダ間の勾配内積を最大化することにより, 一般化性能を向上させるアルゴリズムを提案する。
さらに,本提案手法は,性能向上のためのアテンション・ミクサー融合法を提案し,新しいクロスドメイン・ベンチマークにより,音声・視覚的誤認検出の今後の研究が促進されると信じている。
関連論文リスト
- Generalize or Detect? Towards Robust Semantic Segmentation Under Multiple Distribution Shifts [56.57141696245328]
斬新なクラスとドメインの両方が存在するようなオープンワールドシナリオでは、理想的なセグメンテーションモデルは安全のために異常なクラスを検出する必要がある。
既存の方法はドメインレベルとセマンティックレベルの分散シフトを区別するのに苦労することが多い。
論文 参考訳(メタデータ) (2024-11-06T11:03:02Z) - Improving Single Domain-Generalized Object Detection: A Focus on Diversification and Alignment [17.485775402656127]
基底検出器は、単一領域の一般化のための既存の手法を良いマージンで上回ることができる。
分類と局所化の両方の出力を考慮して,複数のビューから検出を整列する手法を提案する。
我々のアプローチは検出器非依存であり、単段検出器と二段検出器の両方にシームレスに適用できる。
論文 参考訳(メタデータ) (2024-05-23T12:29:25Z) - Improving Anomaly Segmentation with Multi-Granularity Cross-Domain
Alignment [17.086123737443714]
異常セグメンテーションは、画像中の非定型物体を識別する上で重要な役割を担っている。
既存の手法は合成データに顕著な結果を示すが、合成データドメインと実世界のデータドメインの相違を考慮できないことが多い。
シーンと個々のサンプルレベルの両方で、ドメイン間の機能を調和させるのに適した、マルチグラニュラリティ・クロスドメインアライメントフレームワークを導入します。
論文 参考訳(メタデータ) (2023-08-16T22:54:49Z) - CLIP the Gap: A Single Domain Generalization Approach for Object
Detection [60.20931827772482]
単一ドメインの一般化(Single Domain Generalization)は、単一のソースドメイン上でモデルをトレーニングすることで、目に見えないターゲットドメインに一般化する問題に取り組む。
本稿では、事前学習された視覚言語モデルを用いて、テキストプロンプトを介して意味領域の概念を導入することを提案する。
本手法は,検出器のバックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によって実現される。
論文 参考訳(メタデータ) (2023-01-13T12:01:18Z) - Domain Generalization via Frequency-based Feature Disentanglement and
Interaction [23.61154228837516]
ドメインの一般化は、複数のソースドメインからドメインに依存しない知識をマイニングすることを目的としている。
i) 高周波・低周波特徴分離のためのエンコーダ・デコーダ構造を導入し, (ii) 両部からの有益な知識が効果的に連携できる情報相互作用機構を提案する。
提案手法は,広範に使用されている3つの領域一般化ベンチマークの最先端結果を得る。
論文 参考訳(メタデータ) (2022-01-20T07:42:12Z) - Frequency Spectrum Augmentation Consistency for Domain Adaptive Object
Detection [107.52026281057343]
周波数スペクトル拡張整合(FSAC)フレームワークを4種類の低周波フィルタで構成する。
最初の段階では、オリジナルおよび拡張されたソースデータを全て利用して、オブジェクト検出器を訓練する。
第2段階では、予測一貫性のための自己学習を行うために、擬似ラベル付き拡張現実とターゲットデータを採用する。
論文 参考訳(メタデータ) (2021-12-16T04:07:01Z) - MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake
Detection [80.83725644958633]
現在のディープフェイク生成法では、偽画像やビデオの周波数スペクトルに識別的アーティファクトが残されている。
MD-CSDNetwork(MD-CSDNetwork)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T14:11:53Z) - Cross-Domain First Person Audio-Visual Action Recognition through
Relative Norm Alignment [15.545769463854915]
ファースト・パーソン・アクション・認識は、ウェアラブル・カメラの人気が高まっているため、ますます研究が進んでいるトピックである。
これは、この文脈でまだ解決されていない、軽量なドメイン横断の問題をもたらします。
本稿では,音声・視覚信号の本質的な相補性を利用して,学習中のデータによく作用する表現を学習することを提案する。
論文 参考訳(メタデータ) (2021-06-03T08:46:43Z) - Multi-Domain Adversarial Feature Generalization for Person
Re-Identification [52.835955258959785]
マルチデータセット特徴一般化ネットワーク(MMFA-AAE)を提案する。
複数のラベル付きデータセットから普遍的なドメイン不変の特徴表現を学習し、それを見えないカメラシステムに一般化することができる。
また、最先端の教師付き手法や教師なしのドメイン適応手法を大きなマージンで超えている。
論文 参考訳(メタデータ) (2020-11-25T08:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。