論文の概要: Consistent and Invariant Generalization Learning for Short-video Misinformation Detection
- arxiv url: http://arxiv.org/abs/2507.04061v1
- Date: Sat, 05 Jul 2025 14:53:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.998565
- Title: Consistent and Invariant Generalization Learning for Short-video Misinformation Detection
- Title(参考訳): 短ビデオ誤情報検出のための一貫性および不変な一般化学習
- Authors: Hanghui Guo, Weijie Shi, Mengze Li, Juncheng Li, Hao Chen, Yue Cui, Jiajie Xu, Jia Zhu, Jiawei Shen, Zhangze Chen, Sirui Han,
- Abstract要約: ショートビデオ誤報検出はマルチモーダル領域で広く注目を集めている。
現在のモデルは、ドメインギャップのため、目に見えないドメインで不満足なパフォーマンスを示すことが多い。
本稿では,映像誤情報検出のためのコンシステイシーと不変学習を用いた新しいDOmain一般化モデルを提案する。
- 参考スコア(独自算出の注目度): 10.402862106017965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Short-video misinformation detection has attracted wide attention in the multi-modal domain, aiming to accurately identify the misinformation in the video format accompanied by the corresponding audio. Despite significant advancements, current models in this field, trained on particular domains (source domains), often exhibit unsatisfactory performance on unseen domains (target domains) due to domain gaps. To effectively realize such domain generalization on the short-video misinformation detection task, we propose deep insights into the characteristics of different domains: (1) The detection on various domains may mainly rely on different modalities (i.e., mainly focusing on videos or audios). To enhance domain generalization, it is crucial to achieve optimal model performance on all modalities simultaneously. (2) For some domains focusing on cross-modal joint fraud, a comprehensive analysis relying on cross-modal fusion is necessary. However, domain biases located in each modality (especially in each frame of videos) will be accumulated in this fusion process, which may seriously damage the final identification of misinformation. To address these issues, we propose a new DOmain generalization model via ConsisTency and invariance learning for shORt-video misinformation detection (named DOCTOR), which contains two characteristic modules: (1) We involve the cross-modal feature interpolation to map multiple modalities into a shared space and the interpolation distillation to synchronize multi-modal learning; (2) We design the diffusion model to add noise to retain core features of multi modal and enhance domain invariant features through cross-modal guided denoising. Extensive experiments demonstrate the effectiveness of our proposed DOCTOR model. Our code is public available at https://github.com/ghh1125/DOCTOR.
- Abstract(参考訳): ショートビデオ誤報検出はマルチモーダル領域において広く注目を集めており、対応する音声に付随するビデオフォーマットの誤報を正確に識別することを目的としている。
大幅な進歩にもかかわらず、この分野の現在のモデルは特定のドメイン(ソースドメイン)で訓練され、しばしばドメインのギャップのために目に見えないドメイン(ターゲットドメイン)で不満足なパフォーマンスを示す。
短ビデオ誤報検出タスクにおいて、このような領域の一般化を効果的に実現するために、各領域における検出は、主に異なるモダリティ(主にビデオやオーディオ)に依存する可能性がある、という、異なる領域の特性に関する深い洞察を提案する。
ドメインの一般化を強化するためには、全てのモダリティに対して最適なモデル性能を同時に達成することが不可欠である。
2) クロスモーダル・ジョイント・詐欺に焦点を当てたドメインでは, クロスモーダル・フュージョンによる包括的分析が必要である。
しかし、各モード(特にビデオの各フレーム)に位置するドメインバイアスはこの融合プロセスに蓄積され、誤情報の最終的な識別を著しく損なう可能性がある。
これらの問題に対処するため,我々は,複数のモードを共有空間にマッピングするクロスモーダル特徴補間と,マルチモーダル学習を同期する補間蒸留,(2)マルチモーダル学習の中核的特徴を保持するために拡散モデルの設計,およびクロスモーダルガイドによるドメイン不変性の向上,という2つの特徴モジュールを含む,ビデオ誤情報検出のための畳み込み学習(DOmain generalization model)を提案する。
大規模実験により提案したDOCTORモデルの有効性が実証された。
私たちのコードはhttps://github.com/ghh1125/DOCTOR.comで公開されています。
関連論文リスト
- POND: Multi-Source Time Series Domain Adaptation with Information-Aware Prompt Tuning [40.197245493051526]
時系列ドメイン適応は、多様なアプリケーションにおいて、重要かつ複雑な課題である。
POND(PrOmpt-based domaiN Discrimination)は,時系列ドメイン適応にプロンプトを利用する最初のフレームワークである。
提案するPONDモデルは,F1スコア上での最先端比較手法を最大66%向上させる。
論文 参考訳(メタデータ) (2023-12-19T15:57:37Z) - Unified Domain Adaptive Semantic Segmentation [96.74199626935294]
Unsupervised Adaptive Domain Semantic (UDA-SS)は、ラベル付きソースドメインからラベル付きターゲットドメインに監督を移すことを目的としている。
本稿では,特徴量と特徴量との相違に対処するQuad-directional Mixup(QuadMix)法を提案する。
提案手法は,4つの挑戦的UDA-SSベンチマークにおいて,最先端の成果を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2023-11-22T09:18:49Z) - UOD: Universal One-shot Detection of Anatomical Landmarks [16.360644135635333]
我々は、Universal One-shot Detection (UOD)という、多領域の医療画像を扱うためのドメイン適応型ワンショットランドマーク検出フレームワークを開発した。
UODは、ドメイン固有モジュールとドメイン共有モジュールの組み合わせとして設計された、2つのステージと2つの対応するユニバーサルモデルから構成される。
解剖学的領域で広く利用されている3つの公開X線データセットに対して,提案するUODの質的および定量的な検討を行った。
論文 参考訳(メタデータ) (2023-06-13T08:19:14Z) - Attention Diversification for Domain Generalization [92.02038576148774]
畳み込みニューラルネットワーク(CNN)は、識別的特徴を学習する際の満足度を実証している。
目に見えないドメインに適用する場合、最先端のモデルは通常、ドメインシフトによってエラーを起こしやすい。
そこで本研究では,モデル内およびモデル間アテンションの多角化を協調的に行う,新しいアテンションの多様化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-09T09:15:21Z) - Multi-Modal Cross-Domain Alignment Network for Video Moment Retrieval [55.122020263319634]
ビデオモーメント検索(VMR)は、与えられた言語クエリに従って、未編集のビデオからターゲットモーメントをローカライズすることを目的としている。
本稿では、新しいタスクであるクロスドメインVMRに焦点を当て、完全なアノテーション付きデータセットをひとつのドメインで利用できるが、関心のあるドメインは、注釈なしのデータセットのみを含む。
本稿では、アノテーションの知識をソースドメインからターゲットドメインに転送するマルチモーダル・クロスドメインアライメント・ネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-23T12:58:20Z) - INDIGO: Intrinsic Multimodality for Domain Generalization [26.344372409315177]
マルチモーダル情報がどのように「本質的な」方法で活用され、システムが目に見えない領域の下で一般化されるかを検討する。
IntriNsic multimodality for DomaIn GeneralizatiOn (INDIGO)を提案する。
論文 参考訳(メタデータ) (2022-06-13T05:41:09Z) - Compound Domain Generalization via Meta-Knowledge Encoding [55.22920476224671]
マルチモーダル分布を再正規化するために,スタイル駆動型ドメイン固有正規化(SDNorm)を導入する。
組込み空間における関係モデリングを行うために,プロトタイプ表現,クラスセントロイドを利用する。
4つの標準ドメイン一般化ベンチマークの実験により、COMENはドメインの監督なしに最先端のパフォーマンスを上回ることが判明した。
論文 参考訳(メタデータ) (2022-03-24T11:54:59Z) - TAL: Two-stream Adaptive Learning for Generalizable Person
Re-identification [115.31432027711202]
我々は、ドメイン固有性とドメイン不変性の両方が、re-idモデルの一般化能力の向上に不可欠であると主張する。
これら2種類の情報を同時にモデル化するために,2ストリーム適応学習 (TAL) を命名した。
我々のフレームワークは、単一ソースとマルチソースの両方のドメイン一般化タスクに適用できる。
論文 参考訳(メタデータ) (2021-11-29T01:27:42Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。