論文の概要: Flexible-modal Deception Detection with Audio-Visual Adapter
- arxiv url: http://arxiv.org/abs/2302.05727v1
- Date: Sat, 11 Feb 2023 15:47:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 19:01:58.421094
- Title: Flexible-modal Deception Detection with Audio-Visual Adapter
- Title(参考訳): 視聴覚アダプタを用いたフレキシブルモダルデセプション検出
- Authors: Zhaoxu Li, Zitong Yu, Nithish Muthuchamy Selvaraj, Xiaobao Guo,
Bingquan Shen, Adams Wai-Kin Kong, Alex Kot
- Abstract要約: 本稿では,2つのモーダルの時間的特徴を効率的に融合する新しい枠組みを提案する。
2つのベンチマークデータセットを用いて実験を行った結果,提案手法は優れた性能が得られることが示された。
- 参考スコア(独自算出の注目度): 20.6514221670249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting deception by human behaviors is vital in many fields such as custom
security and multimedia anti-fraud. Recently, audio-visual deception detection
attracts more attention due to its better performance than using only a single
modality. However, in real-world multi-modal settings, the integrity of data
can be an issue (e.g., sometimes only partial modalities are available). The
missing modality might lead to a decrease in performance, but the model still
learns the features of the missed modality. In this paper, to further improve
the performance and overcome the missing modality problem, we propose a novel
Transformer-based framework with an Audio-Visual Adapter (AVA) to fuse temporal
features across two modalities efficiently. Extensive experiments conducted on
two benchmark datasets demonstrate that the proposed method can achieve
superior performance compared with other multi-modal fusion methods under
flexible-modal (multiple and missing modalities) settings.
- Abstract(参考訳): 人間の行動による詐欺の検出は、カスタムセキュリティやマルチメディアアンチフルートなど、多くの分野において不可欠である。
近年,視聴覚の誤認検出が,単一のモダリティのみを使用するよりも優れた性能で注目を集めている。
しかし、現実世界のマルチモーダル設定では、データの完全性が問題になり得る(例えば、部分的モーダルしか利用できない)。
モダリティの欠如はパフォーマンスの低下につながるかもしれないが、モデルはまだモダリティの欠如の特徴を学習している。
本稿では,2つのモードの時間的特徴を効率的に融合させるための,AVA(Audio-Visual Adapter)を用いたトランスフォーマーベースのフレームワークを提案する。
2つのベンチマークデータセットで行った広範囲な実験により、提案手法は他のマルチモーダル融合法と比較して、フレキシブルモーダル(多重および欠落モーダル)設定下で優れた性能が得られることを示した。
関連論文リスト
- Modality Invariant Multimodal Learning to Handle Missing Modalities: A Single-Branch Approach [29.428067329993173]
そこで本研究では,モダリティの欠落の影響を受けにくい多モーダル学習手法を提案する。
性能を最大化するためにモダリティ間表現を学ぶために、複数のモダリティにまたがる重みを共有するシングルブランチネットワークで構成されている。
提案手法は,すべてのモダリティが存在する場合や,既存の最先端手法と比較して,トレーニングやテスト中にモダリティが欠落する場合に優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-14T10:32:16Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Fourier Prompt Tuning for Modality-Incomplete Scene Segmentation [37.06795681738417]
Modality-Incomplete Scene (MISS)は、システムレベルのモダリティ不在とセンサーレベルのモダリティエラーの両方を含むタスクである。
我々は,MMS(Missing-Aware Modal Switch)戦略を導入し,トレーニング中に欠落したモダリティを積極的に管理する。
従来のパラメータ効率向上手法よりも5.84%mIoUが改良され,モダリティの欠如が認められた。
論文 参考訳(メタデータ) (2024-01-30T11:46:27Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - What Makes for Robust Multi-Modal Models in the Face of Missing
Modalities? [35.19295402483624]
我々は、情報理論の観点から、欠落するモダリティに遭遇するマルチモーダルモデルのシナリオをモデル化する。
UME-MMA(Uni-Modal Ensemble with Missing Modality Adaptation)を紹介する。
UME-MMAは、マルチモーダルモデルのための一様事前訓練重みを用いて特徴抽出を強化し、欠落したモダリティデータ拡張技術を用いて、モダリティのない状況に適応する。
論文 参考訳(メタデータ) (2023-10-10T07:47:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z) - MA-ViT: Modality-Agnostic Vision Transformers for Face Anti-Spoofing [3.3031006227198003]
マルチモーダルデータの助けを借りて任意のモーダルアタックの性能を向上させることを目的としたモダリティ非依存型視覚変換器(MA-ViT)を提案する。
具体的には、MA-ViTは早期融合を採用し、利用可能なすべてのトレーニングモダリティデータを集約し、任意のモダリティサンプルの柔軟なテストを可能にする。
実験により、MA-ViTでトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-04-15T13:03:44Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Self-attention fusion for audiovisual emotion recognition with
incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。
本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文 参考訳(メタデータ) (2022-01-26T18:04:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。