論文の概要: Improved Fine-Tuning of Large Multimodal Models for Hateful Meme Detection
- arxiv url: http://arxiv.org/abs/2502.13061v1
- Date: Tue, 18 Feb 2025 17:07:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:09:42.384715
- Title: Improved Fine-Tuning of Large Multimodal Models for Hateful Meme Detection
- Title(参考訳): ヘイトフルミーム検出のための大規模マルチモーダルモデルの微調整の改善
- Authors: Jingbiao Mei, Jinghong Chen, Guangyu Yang, Weizhe Lin, Bill Byrne,
- Abstract要約: 有害ミームはインターネットにおいて重要な関心事となり、堅牢な自動検知システムを必要としている。
大規模マルチモーダルモデルは様々なタスクにまたがって強力な一般化を示してきたが、ミームの動的性質によるミーム検出への一般化は乏しい。
本稿では,LMM-RGCL(Large Multimodal Model Retrieval-Guided Contrastive Learning)を提案する。
- 参考スコア(独自算出の注目度): 14.389486267051327
- License:
- Abstract: Hateful memes have become a significant concern on the Internet, necessitating robust automated detection systems. While large multimodal models have shown strong generalization across various tasks, they exhibit poor generalization to hateful meme detection due to the dynamic nature of memes tied to emerging social trends and breaking news. Recent work further highlights the limitations of conventional supervised fine-tuning for large multimodal models in this context. To address these challenges, we propose Large Multimodal Model Retrieval-Guided Contrastive Learning (LMM-RGCL), a novel two-stage fine-tuning framework designed to improve both in-domain accuracy and cross-domain generalization. Experimental results on six widely used meme classification datasets demonstrate that LMM-RGCL achieves state-of-the-art performance, outperforming agent-based systems such as VPD-PALI-X-55B. Furthermore, our method effectively generalizes to out-of-domain memes under low-resource settings, surpassing models like GPT-4o.
- Abstract(参考訳): 有害ミームはインターネットにおいて重要な関心事となり、堅牢な自動検知システムを必要としている。
大規模マルチモーダルモデルは様々なタスクにまたがって強力な一般化を示してきたが、新興の社会トレンドやニュースに結びついているミームのダイナミックな性質から、憎しみのあるミーム検出への一般化は乏しい。
最近の研究は、この文脈における大規模マルチモーダルモデルに対する従来の教師付き微調整の限界をさらに強調している。
これらの課題に対処するために、ドメイン内精度とクロスドメイン一般化の両方を改善するために設計された2段階のファインチューニングフレームワークであるLMM-RGCLを提案する。
6つの広く使われているミーム分類データセットによる実験結果から、LMM-RGCLはVPD-PALI-X-55Bのようなエージェントベースシステムよりも優れた、最先端のパフォーマンスを達成することが示された。
さらに,本手法は,低リソース環境下での領域外ミームに効果的に一般化し,GPT-4o などのモデルを上回る。
関連論文リスト
- MAA: Meticulous Adversarial Attack against Vision-Language Pre-trained Models [30.04163729936878]
Meticulous Adrial Attack (MAA) は、個々のサンプルのモデルに依存しない特性と脆弱性を完全に活用する。
MAAは、新しいリサイズ・スライディング作物(RScrop)技術を開発することにより、敵画像のきめ細かい最適化を強調している。
論文 参考訳(メタデータ) (2025-02-12T02:53:27Z) - SOWA: Adapting Hierarchical Frozen Window Self-Attention to Visual-Language Models for Better Anomaly Detection [0.6906005491572401]
CLIPモデルに基づく新しいウィンドウ自己認識機構を導入し、学習可能なプロンプトを付加してマルチレベル機能を処理する。
提案手法は5つのベンチマークデータセットで厳格に評価され,20項目中18項目をリードすることで,優れた性能を実現している。
論文 参考訳(メタデータ) (2024-07-04T04:54:03Z) - GM-DF: Generalized Multi-Scenario Deepfake Detection [49.072106087564144]
既存の偽造検出は、通常、単一のドメインでのトレーニングモデルのパラダイムに従う。
本稿では,複数の顔偽造検出データセットを共同で訓練した場合のディープフェイク検出モデルの一般化能力について詳しく検討する。
論文 参考訳(メタデータ) (2024-06-28T17:42:08Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - On the Limitations of Multimodal VAEs [9.449650062296824]
マルチモーダル変分オートエンコーダ(VAE)は、弱い教師付きデータに対する効率的な生成モデルとして期待されている。
弱い監督の利点にもかかわらず、単調なVAEと比較すると、遺伝子品質の差が見られる。
論文 参考訳(メタデータ) (2021-10-08T13:28:28Z) - Posterior Differential Regularization with f-divergence for Improving
Model Robustness [95.05725916287376]
クリーン入力とノイズ入力のモデル後部差を規則化する手法に着目する。
後微分正則化を$f$-divergencesの族に一般化する。
実験の結果, 後方微分を$f$-divergenceで正規化することで, モデルロバスト性の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2020-10-23T19:58:01Z) - Unsupervised multi-modal Styled Content Generation [61.040392094140245]
UMMGANは、教師なし方式でマルチモーダル分布をモデル化するために設計された新しいアーキテクチャである。
UMMGANはモードとスタイルを効果的に切り離し、生成したコンテンツに対して独立した制御を行うことができることを示す。
論文 参考訳(メタデータ) (2020-01-10T19:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。