論文の概要: GatedCLIP: Gated Multimodal Fusion for Hateful Memes Detection
- arxiv url: http://arxiv.org/abs/2602.20818v1
- Date: Tue, 24 Feb 2026 11:54:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.739054
- Title: GatedCLIP: Gated Multimodal Fusion for Hateful Memes Detection
- Title(参考訳): GatedCLIP:Hateful Memes 検出のためのGated Multimodal Fusion
- Authors: Yingying Guo, Ke Zhang, Zirong Zeng,
- Abstract要約: GatedCLIPはVision-Languageモデルで、CLIPのマルチモーダル機能を強化する。
提案手法では,CLIP埋め込みをタスク最適化セマンティック空間にマッピングする学習プロジェクションヘッドを導入する。
Hateful Memesデータセットの実験では、GatedCLIPがAUROC 0.66を実質的に達成し、CLIPベースラインを大幅に上回っていることが示されている。
- 参考スコア(独自算出の注目度): 3.9076335840651506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting hateful content in multimodal memes presents unique challenges, as harmful messages often emerge from the complex interplay between benign images and text. We propose GatedCLIP, a Vision-Language model that enhances CLIP's multimodal capabilities with specialized architectural improvements for hateful memes detection. Our approach introduces learned projection heads that map CLIP embeddings to a task-optimized semantic space, a dynamic gated fusion mechanism that adaptively weights visual and textual features, and a contrastive learning objective that maintains cross-modal semantic alignment. Experiments on the Hateful Memes dataset demonstrate that GatedCLIP achieves an AUROC of 0.66, substantially outperforming the CLIP baseline (AUROC 0.49) while maintaining computational efficiency with only 350K trainable parameters.
- Abstract(参考訳): 有害なメッセージは、良心的な画像とテキストの間の複雑な相互作用からしばしば現れるため、マルチモーダルミームにおける憎しみのあるコンテンツを検出することは、ユニークな課題である。
GatedCLIPは,CLIPのマルチモーダル機能を強化し,ヘイトフルミーム検出のためのアーキテクチャ改善を施したビジョンランゲージモデルである。
提案手法では,CLIPの埋め込みをタスク最適化セマンティック空間にマッピングする学習プロジェクションヘッド,視覚的特徴とテキスト的特徴を適応的に重み付けする動的ゲート融合機構,モーダルなセマンティックアライメントを維持する対照的な学習目標を導入する。
Hateful Memesデータセットの実験では、GatedCLIPはAUROCの0.66を達成し、CLIPベースライン(AUROC 0.49)を大幅に上回り、350Kのトレーニング可能なパラメータで計算効率を保っている。
関連論文リスト
- Generalized Contrastive Learning for Universal Multimodal Retrieval [53.70202081784898]
クロスモーダル検索モデル(例えばCLIP)は、融合した画像テキストのモダリティからなるキーを検索することで、劣化したパフォーマンスを示す。
本稿では,新たなデータセットキュレーションを必要とせずに,マルチモーダル検索性能を向上させる新しい損失定式化である汎用コントラスト学習(GCL)を提案する。
論文 参考訳(メタデータ) (2025-09-30T01:25:04Z) - un$^2$CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP [75.19266107565109]
コントラスト言語-画像事前学習(CLIP)が基礎モデルとなり、様々なビジョンやマルチモーダルタスクに適用されている。
この作業は既存のCLIPモデルの改善に重点を置いており、可能な限り多くの画像の視覚的詳細をキャプチャすることを目的としている。
論文 参考訳(メタデータ) (2025-05-30T12:29:38Z) - Distill CLIP (DCLIP): Enhancing Image-Text Retrieval via Cross-Modal Transformer Distillation [4.063715077687089]
Distill CLIP (DCLIP) はCLIPモデルの微調整版である。
オリジナルのモデルの強力なゼロショット分類機能を保ちながら、マルチモーダルな画像テキスト検索を強化する。
論文 参考訳(メタデータ) (2025-05-25T07:08:07Z) - Efficiently Disentangling CLIP for Multi-Object Perception [62.523137132812764]
CLIPのような視覚言語モデルは、シーン内の1つの顕著なオブジェクトを認識するのに優れていますが、複数のオブジェクトを含む複雑なシーンで苦労しています。
凍結したVLMに最小限の学習可能なパラメータのみを追加しながら、最適な相互情報のレベルを学習する効率的なフレームワークであるDCLIPを提案する。
論文 参考訳(メタデータ) (2025-02-05T08:20:31Z) - LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。
キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。
提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - MemeCLIP: Leveraging CLIP Representations for Multimodal Meme Classification [11.270267165348626]
LGBTQ+ Pride 運動に関連する5,063個のテキスト埋め込み画像からなる新しいデータセット PrideMM を提案する。
事前学習したCLIPモデルの知識を保ちながら、効率的な下流学習のための新しいフレームワークMemeCLIPを提案する。
論文 参考訳(メタデータ) (2024-09-23T04:49:08Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。