論文の概要: DARC-CLIP: Dynamic Adaptive Refinement with Cross-Attention for Meme Understanding
- arxiv url: http://arxiv.org/abs/2604.23214v2
- Date: Tue, 28 Apr 2026 06:08:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 14:06:43.828081
- Title: DARC-CLIP: Dynamic Adaptive Refinement with Cross-Attention for Meme Understanding
- Title(参考訳): DARC-CLIP:ミーム理解のためのクロスアテンションを用いた動的適応リファインメント
- Authors: Qiyuan Jin,
- Abstract要約: 階層的リファインメントスタックを用いた適応型マルチモーダル融合のためのCLIPベースのフレームワークであるDARC-CLIPを提案する。
ヘイト、ターゲット、スタンス、ユーモアの分類を含むPrideMMベンチマークでDARC-CLIPを評価した。
DARC-CLIPはタスク間で高い競争力を持つ分類精度を達成し、ヘイト検出では+4.18 AUROCと+6.84 F1が大幅に向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Memes convey meaning through the interaction of visual and textual signals, often combining humor, irony, and offense in subtle ways. Detecting harmful or sensitive content in memes requires accurate modeling of these multimodal cues. Existing CLIP-based approaches rely on static fusion, which struggles to capture fine grained dependencies between modalities. We propose DARC-CLIP, a CLIP-based framework for adaptive multimodal fusion with a hierarchical refinement stack. DARC-CLIP introduces Adaptive Cross-Attention Refiners to for bidirectional information alignment and Dynamic Feature Adapters for task-sensitive signal adaptation. We evaluate DARC-CLIP on the PrideMM benchmark, which includes hate, target, stance, and humor classification, and further test generalization on the CrisisHateMM dataset. DARC-CLIP achieves highly competitive classification accuracy across tasks, with significant gains of +4.18 AUROC and +6.84 F1 in hate detection over the strongest baseline. Ablation studies confirm that ACAR and DFA are the main contributors to these gains. These results show that adaptive cross-signal refinement is an effective strategy for multimodal content analysis in socially sensitive classification.
- Abstract(参考訳): ミームは視覚的信号とテキスト的信号の相互作用を通じて意味を伝え、ユーモア、皮肉、悪行を微妙に組み合わせることが多い。
ミーム中の有害またはセンシティブなコンテンツを検出するには、これらのマルチモーダルキューの正確なモデリングが必要である。
既存のCLIPベースのアプローチは静的フュージョンに依存しており、モジュール間のきめ細かい依存関係を捉えるのに苦労している。
階層的リファインメントスタックを用いた適応型マルチモーダル融合のためのCLIPベースのフレームワークであるDARC-CLIPを提案する。
DARC-CLIPは、双方向情報アライメントのためのAdaptive Cross-Attention Refinersと、タスクに敏感な信号適応のためのDynamic Feature Adaptersを導入している。
ヘイト、ターゲット、スタント、ユーモアの分類を含むPrideMMベンチマークでDARC-CLIPを評価し、さらにCrisisHateMMデータセット上でテスト一般化を行う。
DARC-CLIPは、最強のベースライン上でのヘイト検出において、+4.18 AUROCと+6.84 F1の顕著な増加により、タスク間で高い競争力を持つ分類精度を達成する。
アブレーション研究は、ACARとDFAがこれらの利益の主な貢献者であることを確認した。
これらの結果から,適応的クロスサインリファインメントは,社会に敏感な分類におけるマルチモーダルコンテンツ分析に有効な戦略であることが示唆された。
関連論文リスト
- BindCLIP: A Unified Contrastive-Generative Representation Learning Framework for Virtual Screening [46.26554693977487]
BindCLIPは仮想スクリーニングのためのコントラスト生成型表現学習フレームワークである。
我々は、BindCLIPが、配布外仮想スクリーニングに挑戦する上で、かなりの利益を得ることを示した。
その結果、生成的、ポーズレベルの監督と対照的な学習を統合することで、より対話性に敏感な埋め込みが得られることが示唆された。
論文 参考訳(メタデータ) (2026-02-16T22:26:55Z) - CLIP-Joint-Detect: End-to-End Joint Training of Object Detectors with Contrastive Vision-Language Supervision [0.08699280339422537]
CLIP-Joint-Detectは,エンドツーエンドのジョイントトレーニングを通じて,CLIPスタイルのコントラスト的視覚言語指導を統合するフレームワークである。
軽量並列ヘッドは、CLIP埋め込み空間に領域やグリッドを投影し、InfoNCEの対照的な損失と補助的なクロスエントロピー項を通じて学習可能なクラス固有のテキスト埋め込みと整列する。
我々は、Faster R-CNNを用いたPascal VOC 2007+2012と、最新のYOLO検出器(YOLOv11)を用いた大規模MS 2017ベンチマークでこれを検証した。
論文 参考訳(メタデータ) (2025-12-28T15:21:20Z) - Hierarchical Self-Supervised Representation Learning for Depression Detection from Speech [51.14752758616364]
音声による抑うつ検出 (SDD) は、従来の臨床評価に代わる有望で非侵襲的な代替手段である。
HAREN-CTCは,マルチタスク学習フレームワーク内でのクロスアテンションを用いて,多層SSL機能を統合した新しいアーキテクチャである。
このモデルはDAIC-WOZで0.81、MODMAで0.82の最先端マクロF1スコアを達成し、両方の評価シナリオで先行手法より優れている。
論文 参考訳(メタデータ) (2025-10-05T09:32:12Z) - Causal Disentanglement and Cross-Modal Alignment for Enhanced Few-Shot Learning [11.752632557524969]
Causal CLIP Adapter(CCA)は、CLIPから抽出された視覚的特徴を明示的に分離する新しいフレームワークである。
本手法は, 分散シフトに対する数ショット性能とロバスト性の観点から, 常に最先端の手法より優れる。
論文 参考訳(メタデータ) (2025-08-05T05:30:42Z) - MadCLIP: Few-shot Medical Anomaly Detection with CLIP [14.023527193608142]
医療データに事前訓練されたCLIPモデルを活用する,革新的な数発の異常検出手法を提案する。
学習可能なアダプタを用いて,正常な特徴と異常な特徴を別々に捉えるために,デュアルブランチ設計を提案する。
セマンティックアライメントを改善するために、学習可能なテキストプロンプトを使用して視覚的特徴をリンクする。
論文 参考訳(メタデータ) (2025-06-30T12:56:17Z) - Disentangled Noisy Correspondence Learning [56.06801962154915]
クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。
DisNCLはノイズ対応学習における特徴分散のための新しい情報理論フレームワークである。
論文 参考訳(メタデータ) (2024-08-10T09:49:55Z) - AdaCLIP: Adapting CLIP with Hybrid Learnable Prompts for Zero-Shot Anomaly Detection [14.916862007773341]
本研究では,事前学習型視覚言語モデル(VLM)であるCLIPを利用して,ZSADタスクのためのAdaCLIPを提案する。
AdaCLIPは学習可能なプロンプトをCLIPに組み込み、補助的な注釈付き異常検出データのトレーニングを通じて最適化する。
AdaCLIPは他のZSAD法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:52:37Z) - Efficient Adversarial Contrastive Learning via Robustness-Aware Coreset
Selection [59.77647907277523]
敵対的コントラスト学習(ACL)は、高価なデータアノテーションを必要としないが、敵対的攻撃に耐える堅牢な表現を出力する。
ACLは、すべてのトレーニングデータの逆の変種を生成するのに、膨大な実行時間が必要です。
本稿では,ACLの高速化を目的としたロバストネス対応コアセット選択(RCS)手法を提案する。
論文 参考訳(メタデータ) (2023-02-08T03:20:14Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。