論文の概要: Rethinking Multimodal Content Moderation from an Asymmetric Angle with
Mixed-modality
- arxiv url: http://arxiv.org/abs/2305.10547v3
- Date: Wed, 13 Dec 2023 21:19:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 04:53:16.987669
- Title: Rethinking Multimodal Content Moderation from an Asymmetric Angle with
Mixed-modality
- Title(参考訳): 混合モードをもつ非対称角度からのマルチモーダルコンテンツモデレーションの再考
- Authors: Jialin Yuan, Ye Yu, Gaurav Mittal, Matthew Hall, Sandra Sajeev, Mei
Chen
- Abstract要約: ソーシャルメディア上でのマルチモーダルコンテンツモデレーション(CM)の必要性は急速に高まっている。
既存のユニモーダルCMシステムは、モダリティを越える有害な内容の取得に失敗する可能性がある。
マルチモーダルおよび非モーダルCMタスクを対象とする新しいCMモデルである非対称混合モードモデレーション(AM3)を提案する。
- 参考スコア(独自算出の注目度): 14.594707272134414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a rapidly growing need for multimodal content moderation (CM) as
more and more content on social media is multimodal in nature. Existing
unimodal CM systems may fail to catch harmful content that crosses modalities
(e.g., memes or videos), which may lead to severe consequences. In this paper,
we present a novel CM model, Asymmetric Mixed-Modal Moderation (AM3), to target
multimodal and unimodal CM tasks. Specifically, to address the asymmetry in
semantics between vision and language, AM3 has a novel asymmetric fusion
architecture that is designed to not only fuse the common knowledge in both
modalities but also to exploit the unique information in each modality. Unlike
previous works that focus on representing the two modalities into a similar
feature space while overlooking the intrinsic difference between the
information conveyed in multimodality and in unimodality (asymmetry in
modalities), we propose a novel cross-modality contrastive loss to learn the
unique knowledge that only appears in multimodality. This is critical as some
harmful intent may only be conveyed through the intersection of both
modalities. With extensive experiments, we show that AM3 outperforms all
existing state-of-the-art methods on both multimodal and unimodal CM
benchmarks.
- Abstract(参考訳): ソーシャルメディア上のコンテンツが本質的にマルチモーダルであることから、マルチモーダルコンテンツモデレーション(CM)の必要性は急速に高まっている。
既存のユニモーダルCMシステムは、モダリティ(ミームやビデオなど)を横断する有害なコンテンツをキャッチできず、深刻な結果をもたらす可能性がある。
本稿では,マルチモーダルおよびユニモーダルcmタスクを対象とする新しいcmモデルであるasymmetric mixed-modal moderation (am3)を提案する。
具体的には、視覚と言語間の意味論における非対称性に対処するため、AM3は、両モードの共通知識を融合させるだけでなく、各モードにおけるユニークな情報を活用するために設計された、新しい非対称融合アーキテクチャを持つ。
多様性(multimodality)と単様性(asymmetry in modalities)で伝達される情報(asymmetry in modalities)の間に本質的な違いを見落としながら、2つのモダリティを類似した特徴空間に表現することに焦点を当てた以前の作品とは異なり、我々は多様性にのみ現れる独特な知識を学ぶために、新しい交叉モダリティ比較損失を提案する。
これは、有害な意図が両方のモダリティの交叉を通してのみ伝達されるため、重要である。
広範囲な実験により、AM3はマルチモーダルCMベンチマークとユニモーダルCMベンチマークの両方において、既存の最先端手法よりも優れていることを示す。
関連論文リスト
- Leveraging Intra-modal and Inter-modal Interaction for Multi-Modal Entity Alignment [27.28214706269035]
マルチモーダル・エンティティ・アライメント(MMEA)は、異なるマルチモーダル・ナレッジ・グラフ(MMKG)間で等価なエンティティ・ペアを識別することを目的としている。
本稿では,マルチモーダルエンティティアライメントのための多言語インタラクションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-19T08:43:11Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Inconsistent Matters: A Knowledge-guided Dual-consistency Network for
Multi-modal Rumor Detection [53.48346699224921]
マルチメディアコンテンツによる噂を検出するために,知識誘導型二元整合ネットワークを提案する。
2つの一貫性検出ツールを使用して、クロスモーダルレベルとコンテント知識レベルの不整合を同時にキャプチャする。
また、異なる視覚的モダリティ条件下で頑健なマルチモーダル表現学習を可能にする。
論文 参考訳(メタデータ) (2023-06-03T15:32:20Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Multimodal Information Bottleneck: Learning Minimal Sufficient Unimodal
and Multimodal Representations [27.855467591358018]
マルチモーダル・インフォメーション・ボトルネック (MIB) を導入し, 強力かつ十分なマルチモーダル表現の学習を目指す。
情報制約の異なる視点に焦点を合わせるために,MIB の3つの変種,すなわちアーリーフュージョン MIB,レイトフュージョン MIB,フルMIB を開発した。
実験結果から,提案手法はマルチモーダル感情分析とマルチモーダル感情認識のタスクにおいて,最先端の性能に達することが示唆された。
論文 参考訳(メタデータ) (2022-10-31T16:14:18Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Improving Multimodal fusion via Mutual Dependency Maximisation [5.73995120847626]
マルチモーダル・感情分析は研究のトレンドとなっている分野であり、マルチモーダル・フュージョンは最も活発なトピックの1つである。
本研究では,未探索の罰則を調査し,モダリティ間の依存性を測定するための新たな目的セットを提案する。
我々は、我々の新しい罰則が様々な最先端モデルに対して一貫した改善(正確性で最大4.3ドル)をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-31T06:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。