論文の概要: Pro-Cap: Leveraging a Frozen Vision-Language Model for Hateful Meme
Detection
- arxiv url: http://arxiv.org/abs/2308.08088v1
- Date: Wed, 16 Aug 2023 01:38:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 15:13:37.785272
- Title: Pro-Cap: Leveraging a Frozen Vision-Language Model for Hateful Meme
Detection
- Title(参考訳): Pro-Cap:Hateful Meme検出のための凍結ビジョンランゲージモデルを活用する
- Authors: Rui Cao, Ming Shan Hee, Adriel Kuek, Wen-Haw Chong, Roy Ka-Wei Lee,
Jing Jiang
- Abstract要約: 本稿では,PVLMをゼロショット視覚質問応答(VQA)方式で活用するための探索型キャプション手法を提案する。
具体的には、ヘイトなコンテンツ関連質問をし、その回答を画像キャプションとして用いることで、凍結PVLMを誘導する。
Pro-Capを用いた3つのベンチマークによるモデルの性能評価により,提案手法の有効性と一般化が検証された。
- 参考スコア(独自算出の注目度): 17.182722268446604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hateful meme detection is a challenging multimodal task that requires
comprehension of both vision and language, as well as cross-modal interactions.
Recent studies have tried to fine-tune pre-trained vision-language models
(PVLMs) for this task. However, with increasing model sizes, it becomes
important to leverage powerful PVLMs more efficiently, rather than simply
fine-tuning them. Recently, researchers have attempted to convert meme images
into textual captions and prompt language models for predictions. This approach
has shown good performance but suffers from non-informative image captions.
Considering the two factors mentioned above, we propose a probing-based
captioning approach to leverage PVLMs in a zero-shot visual question answering
(VQA) manner. Specifically, we prompt a frozen PVLM by asking hateful
content-related questions and use the answers as image captions (which we call
Pro-Cap), so that the captions contain information critical for hateful content
detection. The good performance of models with Pro-Cap on three benchmarks
validates the effectiveness and generalization of the proposed method.
- Abstract(参考訳): ヘイトフルミーム検出は、視覚と言語の両方の理解とクロスモーダルなインタラクションを必要とする、挑戦的なマルチモーダルタスクである。
近年,この課題に対して,事前学習型視覚言語モデル(PVLM)の微調整を試みた。
しかし、モデルのサイズが大きくなるにつれて、単に微調整するのではなく、強力なPVLMを効率的に活用することが重要となる。
最近、研究者は、予測のためにミーム画像をテキストキャプションとプロンプト言語モデルに変換しようと試みている。
このアプローチは優れたパフォーマンスを示しているが、非情報的イメージキャプションに悩まされている。
上記の2つの要因を考慮すると, PVLMをゼロショット視覚質問応答(VQA)方式で活用する探索型キャプション手法を提案する。
具体的には、ヘイトフルなコンテンツ関連質問をし、その回答をイメージキャプション(Pro-Capと呼ぶ)として利用することで、フリーズPVLMを誘導し、ヘイトフルなコンテンツ検出に重要な情報を含むようにします。
3つのベンチマークにおけるpro-capモデルの優れた性能は,提案手法の有効性と一般化を検証する。
関連論文リスト
- Rephrase, Augment, Reason: Visual Grounding of Questions for
Vision-Language Models [66.37493420911979]
視覚言語モデル(LVLM)に入力がどのように提示されるかは、ゼロショットモデルの性能に大きな影響を与える可能性がある。
本稿では,LVLMをキャプタと推論器として用い,画像の健全な詳細を抽出するフレームワークであるRephrase, Augment and Reason(RepARe)を紹介する。
VQAv2ではRepAReが3.85%(絶対)増加し,A-OKVQAでは6.41%向上することを示した。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Zero-shot Visual Question Answering with Language Model Feedback [83.65140324876536]
知識に基づく視覚的質問応答(VQA)のための言語モデル指導型キャプションアプローチ LAMOC を提案する。
提案手法では,予備学習言語モデル (PLM) である回答予測モデルの文脈として,キャプションモデルによって生成されたキャプションを用いる。
論文 参考訳(メタデータ) (2023-05-26T15:04:20Z) - MAViC: Multimodal Active Learning for Video Captioning [8.454261564411436]
本稿では,映像キャプションにおけるアクティブな学習手法の課題に対処するためにMAViCを紹介する。
本手法は,獲得関数における視覚的,言語的両次元のセマンティックな類似性と不確実性を統合する。
論文 参考訳(メタデータ) (2022-12-11T18:51:57Z) - PromptCap: Prompt-Guided Task-Aware Image Captioning [118.39243917422492]
本稿では,画像とブラックボックスLMのより良いコネクタとして設計されたキャプションモデルであるPromptCapを提案する。
PromptCapは、生成されたキャプションで記述する視覚エンティティを制御するために自然言語プロンプトを使用する。
本稿では,GPT-3に画像キャプションを付加してVQAを実行する既存のパイプライン上で,PromptCapの有効性を示す。
論文 参考訳(メタデータ) (2022-11-15T19:07:53Z) - A Good Prompt Is Worth Millions of Parameters? Low-resource Prompt-based
Learning for Vision-Language Models [50.27305012063483]
FewVLMは、視覚言語タスクに関する数発のプロンプトベースの学習ツールである。
我々はプレフィックス言語モデリング(PrefixLM)とマスク言語モデリング(MaskedLM)を併用したシーケンス・ツー・シーケンス・トランスフォーマーモデルを事前訓練する。
このプロンプトはゼロショット性能に大きく影響するが、少数ショット性能にはほとんど影響しない。
論文 参考訳(メタデータ) (2021-10-16T06:07:59Z) - Caption Enriched Samples for Improving Hateful Memes Detection [78.5136090997431]
憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。
ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
論文 参考訳(メタデータ) (2021-09-22T10:57:51Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。