論文の概要: Audio-Visual Deception Detection: DOLOS Dataset and Parameter-Efficient
Crossmodal Learning
- arxiv url: http://arxiv.org/abs/2303.12745v1
- Date: Thu, 9 Mar 2023 08:12:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-25 02:50:05.613516
- Title: Audio-Visual Deception Detection: DOLOS Dataset and Parameter-Efficient
Crossmodal Learning
- Title(参考訳): DOLOSデータセットとパラメータ効率のよいクロスモーダル学習
- Authors: Xiaobao Guo, Nithish Muthuchamy Selvaraj, Zitong Yu, Adams Kong,
Bingquan Shen, Alex Kot
- Abstract要約: DOLOS(DOLOS)は,ゲームショーの偽装検出データセットとして最大であり,深い偽装会話が可能である。
我々は、異なる要因の影響を調べるために、列車試験、時間、性別のプロトコルを提供する。
また,マルチタスク学習を利用して,誤認識や視覚的特徴を同時に予測することで,性能向上を図る。
- 参考スコア(独自算出の注目度): 14.139670453834798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deception detection in conversations is a challenging yet important task,
having pivotal applications in many fields such as credibility assessment in
business, multimedia anti-frauds, and custom security. Despite this, deception
detection research is hindered by the lack of high-quality deception datasets,
as well as the difficulties of learning multimodal features effectively. To
address this issue, we introduce DOLOS, the largest gameshow deception
detection dataset with rich deceptive conversations. DOLOS includes 1,675 video
clips featuring 213 subjects, and it has been labeled with audio-visual feature
annotations. We provide train-test, duration, and gender protocols to
investigate the impact of different factors. We benchmark our dataset on
previously proposed deception detection approaches. To further improve the
performance by fine-tuning fewer parameters, we propose Parameter-Efficient
Crossmodal Learning (PECL), where a Uniform Temporal Adapter (UT-Adapter)
explores temporal attention in transformer-based architectures, and a
crossmodal fusion module, Plug-in Audio-Visual Fusion (PAVF), combines
crossmodal information from audio-visual features. Based on the rich
fine-grained audio-visual annotations on DOLOS, we also exploit multi-task
learning to enhance performance by concurrently predicting deception and
audio-visual features. Experimental results demonstrate the desired quality of
the DOLOS dataset and the effectiveness of the PECL. The DOLOS dataset and the
source codes will be publicly available soon.
- Abstract(参考訳): ビジネスにおける信頼性評価、マルチメディアのアンチ詐欺、カスタムセキュリティなど、多くの分野において重要な応用がある。
それにもかかわらず、デセプション検出研究は、高品質のデセプションデータセットの欠如と、マルチモーダルな特徴を効果的に学習することの難しさによって妨げられている。
この問題に対処するため,ゲームショーの偽装検出データセットとして最大規模のDOLOSを導入した。
DOLOSには213人の被験者をフィーチャーした1,675本のビデオクリップが含まれており、音声-視覚的特徴アノテーションがラベル付けされている。
我々は、異なる要因の影響を調べるために、列車試験、期間、性別プロトコルを提供する。
提案した偽造検出手法のデータセットをベンチマークする。
より少ないパラメータを微調整して性能をさらに向上させるため、一様時相アダプタ(ut-adapter)がトランスフォーマティブアーキテクチャの時間的注意を探索するパラメータ効率の高いクロスモーダル学習(pecl)と、音声・視覚特徴のクロスモーダル情報を結合したクロスモーダル融合モジュールであるプラグインオーディオ・ビジュアル融合(pavf)を提案する。
dolosの詳細なオーディオビジュアルアノテーションに基づいて,マルチタスク学習を活用し,騙しと視聴覚機能を同時に予測することで,パフォーマンスを向上させる。
実験の結果,DOLOSデータセットの望ましい品質とPECLの有効性が示された。
DOLOSデータセットとソースコードは近く公開される。
関連論文リスト
- AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - A Large-scale Dataset for Audio-Language Representation Learning [54.933479346870506]
本稿では,一連の公開ツールやAPIに基づいた,革新的で自動的な音声キャプション生成パイプラインを提案する。
我々はAuto-ACDという名前の大規模で高品質な音声言語データセットを構築し、190万以上の音声テキストペアからなる。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - Glitch in the Matrix: A Large Scale Benchmark for Content Driven
Audio-Visual Forgery Detection and Localization [20.46053083071752]
新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。
LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。
提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
論文 参考訳(メタデータ) (2023-05-03T08:48:45Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - EasyCom: An Augmented Reality Dataset to Support Algorithms for Easy
Communication in Noisy Environments [43.05826988957987]
我々は、ARメガネ着用者の会話を改善するアルゴリズムのトレーニングとテストに有用な5時間以上のマルチモーダルデータを含むデータセットをリリースする。
ベースライン法に対して,音声の可聴性,品質,信号対雑音比の改善結果を提供し,全試験指標に比較して改善を示す。
論文 参考訳(メタデータ) (2021-07-09T02:00:47Z) - A Multi-View Approach To Audio-Visual Speaker Verification [38.9710777250597]
本研究では,音声視覚による話者検証手法について検討する。
voxceleb1データセットの最低av等しいエラーレート(eer)は0.7%である。
この新しいアプローチは、クロスモーダル検証の困難なテスト条件において、voxceleb1のeerを28%達成する。
論文 参考訳(メタデータ) (2021-02-11T22:29:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。