論文の概要: Rethinking Multimodal Content Moderation from an Asymmetric Angle with
Mixed-modality
- arxiv url: http://arxiv.org/abs/2305.10547v3
- Date: Wed, 13 Dec 2023 21:19:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 04:53:16.987669
- Title: Rethinking Multimodal Content Moderation from an Asymmetric Angle with
Mixed-modality
- Title(参考訳): 混合モードをもつ非対称角度からのマルチモーダルコンテンツモデレーションの再考
- Authors: Jialin Yuan, Ye Yu, Gaurav Mittal, Matthew Hall, Sandra Sajeev, Mei
Chen
- Abstract要約: ソーシャルメディア上でのマルチモーダルコンテンツモデレーション(CM)の必要性は急速に高まっている。
既存のユニモーダルCMシステムは、モダリティを越える有害な内容の取得に失敗する可能性がある。
マルチモーダルおよび非モーダルCMタスクを対象とする新しいCMモデルである非対称混合モードモデレーション(AM3)を提案する。
- 参考スコア(独自算出の注目度): 14.594707272134414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a rapidly growing need for multimodal content moderation (CM) as
more and more content on social media is multimodal in nature. Existing
unimodal CM systems may fail to catch harmful content that crosses modalities
(e.g., memes or videos), which may lead to severe consequences. In this paper,
we present a novel CM model, Asymmetric Mixed-Modal Moderation (AM3), to target
multimodal and unimodal CM tasks. Specifically, to address the asymmetry in
semantics between vision and language, AM3 has a novel asymmetric fusion
architecture that is designed to not only fuse the common knowledge in both
modalities but also to exploit the unique information in each modality. Unlike
previous works that focus on representing the two modalities into a similar
feature space while overlooking the intrinsic difference between the
information conveyed in multimodality and in unimodality (asymmetry in
modalities), we propose a novel cross-modality contrastive loss to learn the
unique knowledge that only appears in multimodality. This is critical as some
harmful intent may only be conveyed through the intersection of both
modalities. With extensive experiments, we show that AM3 outperforms all
existing state-of-the-art methods on both multimodal and unimodal CM
benchmarks.
- Abstract(参考訳): ソーシャルメディア上のコンテンツが本質的にマルチモーダルであることから、マルチモーダルコンテンツモデレーション(CM)の必要性は急速に高まっている。
既存のユニモーダルCMシステムは、モダリティ(ミームやビデオなど)を横断する有害なコンテンツをキャッチできず、深刻な結果をもたらす可能性がある。
本稿では,マルチモーダルおよびユニモーダルcmタスクを対象とする新しいcmモデルであるasymmetric mixed-modal moderation (am3)を提案する。
具体的には、視覚と言語間の意味論における非対称性に対処するため、AM3は、両モードの共通知識を融合させるだけでなく、各モードにおけるユニークな情報を活用するために設計された、新しい非対称融合アーキテクチャを持つ。
多様性(multimodality)と単様性(asymmetry in modalities)で伝達される情報(asymmetry in modalities)の間に本質的な違いを見落としながら、2つのモダリティを類似した特徴空間に表現することに焦点を当てた以前の作品とは異なり、我々は多様性にのみ現れる独特な知識を学ぶために、新しい交叉モダリティ比較損失を提案する。
これは、有害な意図が両方のモダリティの交叉を通してのみ伝達されるため、重要である。
広範囲な実験により、AM3はマルチモーダルCMベンチマークとユニモーダルCMベンチマークの両方において、既存の最先端手法よりも優れていることを示す。
関連論文リスト
- CMATH: Cross-Modality Augmented Transformer with Hierarchical Variational Distillation for Multimodal Emotion Recognition in Conversation [8.874033487493913]
会話におけるマルチモーダル感情認識は、会話発話中の感情を正確に識別することを目的としている。
CMATHと呼ばれる2つの主要成分から構成される階層的変分蒸留を用いたクロスモダリティ拡張変圧器を提案する。
IEMOCAPとMELDデータセットの実験により、提案したモデルが従来の最先端ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T09:23:02Z) - What to align in multimodal contrastive learning? [7.7439394183358745]
単一マルチモーダル空間におけるモダリティ間の通信を可能にするコントラスト型マルチモーダル学習戦略を導入する。
この定式化から,情報共有,相乗的,一意的な用語が自然に出現し,冗長性を超えたマルチモーダル相互作用を推定できることを示す。
後者では、CoMMは複雑なマルチモーダル相互作用を学び、6つのマルチモーダルベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-09-11T16:42:22Z) - Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities [8.517830626176641]
Any2Segは、任意の視覚的条件におけるモダリティの組み合わせから堅牢なセグメンテーションを実現する新しいフレームワークである。
4つのモダリティを持つ2つのベンチマークの実験は、Any2Segがマルチモーダル設定の下で最先端を達成することを示した。
論文 参考訳(メタデータ) (2024-07-16T03:34:38Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Leveraging Intra-modal and Inter-modal Interaction for Multi-Modal Entity Alignment [27.28214706269035]
マルチモーダル・エンティティ・アライメント(MMEA)は、異なるマルチモーダル・ナレッジ・グラフ(MMKG)間で等価なエンティティ・ペアを識別することを目的としている。
本稿では,マルチモーダルエンティティアライメントのための多言語インタラクションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-19T08:43:11Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。