論文の概要: Multi-source Multimodal Progressive Domain Adaption for Audio-Visual Deception Detection
- arxiv url: http://arxiv.org/abs/2508.12842v1
- Date: Mon, 18 Aug 2025 11:30:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.26649
- Title: Multi-source Multimodal Progressive Domain Adaption for Audio-Visual Deception Detection
- Title(参考訳): マルチソース・マルチモーダル・プログレッシブ・ドメイン・アダプタンスによる聴覚・視覚障害検出
- Authors: Ronghao Lin, Sijie Mai, Ying Zeng, Qiaolin He, Aolin Xiong, Haifeng Hu,
- Abstract要約: 本稿では,第1回SVCワークショップにおけるMMDD(MultiModal Deception Detection)チャレンジの勝利について述べる。
本稿では,マルチソース・マルチモーダル・プログレッシブ・ドメイン適応(MMPDA)フレームワークを提案する。
F1スコアでは60.43%、F1スコアでは56.99%、F1スコアでは5.59%、F1スコアでは3位では6.75%である。
- 参考スコア(独自算出の注目度): 25.29751397873203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the winning approach for the 1st MultiModal Deception Detection (MMDD) Challenge at the 1st Workshop on Subtle Visual Computing (SVC). Aiming at the domain shift issue across source and target domains, we propose a Multi-source Multimodal Progressive Domain Adaptation (MMPDA) framework that transfers the audio-visual knowledge from diverse source domains to the target domain. By gradually aligning source and the target domain at both feature and decision levels, our method bridges domain shifts across diverse multimodal datasets. Extensive experiments demonstrate the effectiveness of our approach securing Top-2 place. Our approach reaches 60.43% on accuracy and 56.99\% on F1-score on competition stage 2, surpassing the 1st place team by 5.59% on F1-score and the 3rd place teams by 6.75% on accuracy. Our code is available at https://github.com/RH-Lin/MMPDA.
- Abstract(参考訳): 本稿では,第1回SVCワークショップにおけるMMDD(MultiModal Deception Detection)チャレンジの勝利について述べる。
ソースドメインとターゲットドメイン間のドメインシフトの問題に着目し,多様なソースドメインからターゲットドメインへのオーディオ視覚的知識の伝達を行うマルチソースマルチモーダルプログレッシブドメイン適応(MMPDA)フレームワークを提案する。
ソースとターゲットドメインを機能レベルと決定レベルの両方で徐々に整列させることで、当社の手法は多様なマルチモーダルデータセットにまたがるドメインシフトを橋渡しします。
広範囲な実験により,トップ2位を確保するアプローチの有効性が実証された。
F1スコアでは60.43%、F1スコアでは56.99\%、F1スコアでは5.59%、F1スコアでは3位では6.75%である。
私たちのコードはhttps://github.com/RH-Lin/MMPDA.comで公開されています。
関連論文リスト
- Multi-Prompt Progressive Alignment for Multi-Source Unsupervised Domain Adaptation [73.40696661117408]
未ラベルの下流タスクにCLIPを適用するためのプログレッシブアライメント戦略を提案する。
私たちはアプローチをMP2Aと名付け、ImageCLEF、Office-Home、そして最も難しいDomainNetという3つの人気のあるUDAベンチマークでテストします。
実験によると、MP2Aは最新のCLIPベースのMS-UDAアプローチと比較して最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-31T09:42:42Z) - An Unsupervised Domain Adaptation Method for Locating Manipulated Region in partially fake Audio [43.91918688112442]
多様性とエントロピーを考慮したサンプルマイニング(SDE)という教師なし手法を提案する。
本手法は、まず、ソースドメインの異なる視点から優れたパフォーマンスを達成する多様な専門家のコレクションから学習する。
対象ドメインから未知のサンプルの10%を導入することで、F1スコアは43.84%となり、第2ベット法に比べて77.2%の相対的な増加を示した。
論文 参考訳(メタデータ) (2024-07-11T07:32:16Z) - Multimodal Cross-Domain Few-Shot Learning for Egocentric Action Recognition [9.458578303096424]
マルチモーダル入力とラベルなしターゲットデータを用いた,エゴセントリックな行動認識のための新しいドメイン間数ショット学習課題に対処する。
本稿では,エゴセントリックな行動認識に関わる2つの重要な課題を同時に解決する。
まず,教師モデルを用いた学生RGBモデルへのマルチモーダル蒸留の導入を提案する。
第2に,マスクによる入力トークン数を削減する手法であるアンサンブルマスク推論を導入する。
論文 参考訳(メタデータ) (2024-05-30T10:30:07Z) - AdAM: Few-Shot Image Generation via Adaptation-Aware Kernel Modulation [71.58154388819887]
F SIG(Few-shot Image Generation)は、少数のトレーニングサンプル(例:10)が与えられた新しい多様な画像を生成することを目的としている。
最近の研究は、大規模ソースドメインで事前訓練されたGANを活用し、ターゲットドメインに適応することで、F SIGに対処している。
本稿では、異なるソース・ターゲット領域近傍の一般F SIGに対してAdaptation-Aware kernel Modulation (AdAM)を提案する。
論文 参考訳(メタデータ) (2023-07-04T03:56:43Z) - Mutual Learning Network for Multi-Source Domain Adaptation [73.25974539191553]
ML-MSDA(Multial Learning Network for Multiple Source Domain Adaptation)を提案する。
相互学習の枠組みのもと,提案手法は対象ドメインと各ソースドメインをペアリングし,条件付き対向ドメイン適応ネットワークを分岐ネットワークとして訓練する。
提案手法は, 比較手法より優れ, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-03-29T04:31:43Z) - Mind the Gap: Enlarging the Domain Gap in Open Set Domain Adaptation [65.38975706997088]
オープンセットドメイン適応(OSDA)は、ターゲットドメインに未知のクラスが存在することを前提としている。
既存の最先端手法は、より大きなドメインギャップが存在する場合、かなりの性能低下を被ることを示す。
我々は、より大きなドメインギャップに特に対処するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-08T14:20:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。