Fugu-MT 論文翻訳(概要): GatedCLIP: Gated Multimodal Fusion for Hateful Memes Detection

論文の概要: GatedCLIP: Gated Multimodal Fusion for Hateful Memes Detection

arxiv url: http://arxiv.org/abs/2602.20818v1
Date: Tue, 24 Feb 2026 11:54:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.739054
Title: GatedCLIP: Gated Multimodal Fusion for Hateful Memes Detection
Title（参考訳）: GatedCLIP:Hateful Memes 検出のためのGated Multimodal Fusion
Authors: Yingying Guo, Ke Zhang, Zirong Zeng,
Abstract要約: GatedCLIPはVision-Languageモデルで、CLIPのマルチモーダル機能を強化する。提案手法では,CLIP埋め込みをタスク最適化セマンティック空間にマッピングする学習プロジェクションヘッドを導入する。 Hateful Memesデータセットの実験では、GatedCLIPがAUROC 0.66を実質的に達成し、CLIPベースラインを大幅に上回っていることが示されている。
参考スコア（独自算出の注目度）: 3.9076335840651506
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Detecting hateful content in multimodal memes presents unique challenges, as harmful messages often emerge from the complex interplay between benign images and text. We propose GatedCLIP, a Vision-Language model that enhances CLIP's multimodal capabilities with specialized architectural improvements for hateful memes detection. Our approach introduces learned projection heads that map CLIP embeddings to a task-optimized semantic space, a dynamic gated fusion mechanism that adaptively weights visual and textual features, and a contrastive learning objective that maintains cross-modal semantic alignment. Experiments on the Hateful Memes dataset demonstrate that GatedCLIP achieves an AUROC of 0.66, substantially outperforming the CLIP baseline (AUROC 0.49) while maintaining computational efficiency with only 350K trainable parameters.
Abstract（参考訳）: 有害なメッセージは、良心的な画像とテキストの間の複雑な相互作用からしばしば現れるため、マルチモーダルミームにおける憎しみのあるコンテンツを検出することは、ユニークな課題である。 GatedCLIPは,CLIPのマルチモーダル機能を強化し,ヘイトフルミーム検出のためのアーキテクチャ改善を施したビジョンランゲージモデルである。提案手法では,CLIPの埋め込みをタスク最適化セマンティック空間にマッピングする学習プロジェクションヘッド,視覚的特徴とテキスト的特徴を適応的に重み付けする動的ゲート融合機構,モーダルなセマンティックアライメントを維持する対照的な学習目標を導入する。 Hateful Memesデータセットの実験では、GatedCLIPはAUROCの0.66を達成し、CLIPベースライン(AUROC 0.49)を大幅に上回り、350Kのトレーニング可能なパラメータで計算効率を保っている。

関連論文リスト

Generalized Contrastive Learning for Universal Multimodal Retrieval [53.70202081784898]
クロスモーダル検索モデル(例えばCLIP)は、融合した画像テキストのモダリティからなるキーを検索することで、劣化したパフォーマンスを示す。本稿では,新たなデータセットキュレーションを必要とせずに,マルチモーダル検索性能を向上させる新しい損失定式化である汎用コントラスト学習(GCL)を提案する。
論文参考訳（メタデータ） (2025-09-30T01:25:04Z)
un$^2$CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP [75.19266107565109]
コントラスト言語-画像事前学習(CLIP)が基礎モデルとなり、様々なビジョンやマルチモーダルタスクに適用されている。この作業は既存のCLIPモデルの改善に重点を置いており、可能な限り多くの画像の視覚的詳細をキャプチャすることを目的としている。
論文参考訳（メタデータ） (2025-05-30T12:29:38Z)
Distill CLIP (DCLIP): Enhancing Image-Text Retrieval via Cross-Modal Transformer Distillation [4.063715077687089]
Distill CLIP (DCLIP) はCLIPモデルの微調整版である。オリジナルのモデルの強力なゼロショット分類機能を保ちながら、マルチモーダルな画像テキスト検索を強化する。
論文参考訳（メタデータ） (2025-05-25T07:08:07Z)
Efficiently Disentangling CLIP for Multi-Object Perception [62.523137132812764]
CLIPのような視覚言語モデルは、シーン内の1つの顕著なオブジェクトを認識するのに優れていますが、複数のオブジェクトを含む複雑なシーンで苦労しています。凍結したVLMに最小限の学習可能なパラメータのみを追加しながら、最適な相互情報のレベルを学習する効率的なフレームワークであるDCLIPを提案する。
論文参考訳（メタデータ） (2025-02-05T08:20:31Z)
LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文参考訳（メタデータ） (2024-11-07T18:59:16Z)
CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling [21.734200158914476]
コントラスト言語-画像事前学習(CLIP)はマルチモーダルインテリジェンスの基礎となっている。最近の研究で、CLIPは機能空間の1つの側面しかエンコードできないことが判明した。本稿では,一連の相補的なCLIPモデルを微調整し,それらをCLIP-MoEに変換する新しい戦略を提案する。
論文参考訳（メタデータ） (2024-09-28T09:28:51Z)
MemeCLIP: Leveraging CLIP Representations for Multimodal Meme Classification [11.270267165348626]
LGBTQ+ Pride 運動に関連する5,063個のテキスト埋め込み画像からなる新しいデータセット PrideMM を提案する。事前学習したCLIPモデルの知識を保ちながら、効率的な下流学習のための新しいフレームワークMemeCLIPを提案する。
論文参考訳（メタデータ） (2024-09-23T04:49:08Z)
Diffusion Feedback Helps CLIP See Better [40.125318318373715]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、ドメインとモダリティをまたいだオープンワールド表現の抽象化に優れている。 CLIPには、方向、量、色、構造をほとんど区別できないような、深刻な視覚的欠点がある。自己教師付き拡散プロセスによって視覚的欠点を克服するCLIPモデルに対する後学習手法を提案する。
論文参考訳（メタデータ） (2024-07-29T17:00:09Z)
Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。マルチステップ誤り最小化(MEM)を提案する。
論文参考訳（メタデータ） (2024-07-23T09:00:52Z)
Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文参考訳（メタデータ） (2024-04-27T02:04:36Z)
Improving Medical Multi-modal Contrastive Learning with Expert Annotations [8.06905122449317]
eCLIPはCLIPモデルの強化版であり、放射線学者の眼球熱マップの形で専門家アノテーションを統合する。対照的なマルチモーダル医療画像解析における重要な課題、特にデータ不足と「モダリティギャップ」に対処する。
論文参考訳（メタデータ） (2024-03-15T09:54:04Z)
From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文参考訳（メタデータ） (2023-10-13T02:41:55Z)
Distilling Knowledge from Text-to-Image Generative Models Improves Visio-Linguistic Reasoning in CLIP [57.53087077735303]
本稿では,CLIPの構成的視覚言語推論を強化する軽量で効率的な蒸留法であるSDS-CLIPを紹介する。提案手法は,Stable-Diffusionのような大規模テキスト・画像生成モデルから抽出した蒸留目標を用いた微細構造CLIPである。挑戦的なWinogroundベンチマークでは、SDS-CLIPは様々なCLIPモデルの視覚言語性能を7%向上させ、AROデータセットでは、パフォーマンスを最大3%向上させた。
論文参考訳（メタデータ） (2023-07-18T13:10:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。