Fugu-MT 論文翻訳(概要): Pro-Cap: Leveraging a Frozen Vision-Language Model for Hateful Meme Detection

論文の概要: Pro-Cap: Leveraging a Frozen Vision-Language Model for Hateful Meme Detection

arxiv url: http://arxiv.org/abs/2308.08088v1
Date: Wed, 16 Aug 2023 01:38:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-17 15:13:37.785272
Title: Pro-Cap: Leveraging a Frozen Vision-Language Model for Hateful Meme Detection
Title（参考訳）: Pro-Cap:Hateful Meme検出のための凍結ビジョンランゲージモデルを活用する
Authors: Rui Cao, Ming Shan Hee, Adriel Kuek, Wen-Haw Chong, Roy Ka-Wei Lee, Jing Jiang
Abstract要約: 本稿では,PVLMをゼロショット視覚質問応答(VQA)方式で活用するための探索型キャプション手法を提案する。具体的には、ヘイトなコンテンツ関連質問をし、その回答を画像キャプションとして用いることで、凍結PVLMを誘導する。 Pro-Capを用いた3つのベンチマークによるモデルの性能評価により,提案手法の有効性と一般化が検証された。
参考スコア（独自算出の注目度）: 17.182722268446604
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Hateful meme detection is a challenging multimodal task that requires comprehension of both vision and language, as well as cross-modal interactions. Recent studies have tried to fine-tune pre-trained vision-language models (PVLMs) for this task. However, with increasing model sizes, it becomes important to leverage powerful PVLMs more efficiently, rather than simply fine-tuning them. Recently, researchers have attempted to convert meme images into textual captions and prompt language models for predictions. This approach has shown good performance but suffers from non-informative image captions. Considering the two factors mentioned above, we propose a probing-based captioning approach to leverage PVLMs in a zero-shot visual question answering (VQA) manner. Specifically, we prompt a frozen PVLM by asking hateful content-related questions and use the answers as image captions (which we call Pro-Cap), so that the captions contain information critical for hateful content detection. The good performance of models with Pro-Cap on three benchmarks validates the effectiveness and generalization of the proposed method.
Abstract（参考訳）: ヘイトフルミーム検出は、視覚と言語の両方の理解とクロスモーダルなインタラクションを必要とする、挑戦的なマルチモーダルタスクである。近年,この課題に対して,事前学習型視覚言語モデル(PVLM)の微調整を試みた。しかし、モデルのサイズが大きくなるにつれて、単に微調整するのではなく、強力なPVLMを効率的に活用することが重要となる。最近、研究者は、予測のためにミーム画像をテキストキャプションとプロンプト言語モデルに変換しようと試みている。このアプローチは優れたパフォーマンスを示しているが、非情報的イメージキャプションに悩まされている。上記の2つの要因を考慮すると, PVLMをゼロショット視覚質問応答(VQA)方式で活用する探索型キャプション手法を提案する。具体的には、ヘイトフルなコンテンツ関連質問をし、その回答をイメージキャプション(Pro-Capと呼ぶ)として利用することで、フリーズPVLMを誘導し、ヘイトフルなコンテンツ検出に重要な情報を含むようにします。 3つのベンチマークにおけるpro-capモデルの優れた性能は,提案手法の有効性と一般化を検証する。

関連論文リスト

ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing [128.8346376825612]
高品質画像キャプションの主な課題は、LVLMの固有のバイアスにある。本稿では,キャプションを継続的に強化・校正し,推論予算を増大させる,スケーラブルなデバイアス付きキャプション戦略を提案する。 450KイメージにScaleCapをアノテートし、LVLMプレトレーニングに使用することで、11の広く使用されているベンチマークで一貫したパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2025-06-24T17:59:55Z)
The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning [89.64905703368255]
ゼロショットビデオキャプションのためのプログレッシブな多粒性テキストプロンプト戦略を提案する。提案手法は,名詞句,名詞句のシーングラフ,全文を含む3つの異なる記憶バンクを構築する。
論文参考訳（メタデータ） (2025-03-31T03:00:19Z)
AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark [73.62572976072578]
大規模なマルチモーダルモデルに基づくビデオキャプタであるAuroraCapを提案する。トークンマージ戦略を実装し、入力されたビジュアルトークンの数を減らす。 AuroraCapは、様々なビデオおよび画像キャプションベンチマークで優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-10-04T00:13:54Z)
BACON: Improving Clarity of Image Captions via Bag-of-Concept Graphs [23.79611990949943]
本稿では,VLM生成キャプションを関係,スタイル,テーマなどの構造化要素に分解するプロンプト手法であるBACONを提案する。 BACON方式のキャプションは,様々なモデルに適用した場合の明瞭度が向上し,従来は達成不可能であったタスクを達成できたり,既存のSOTAソリューションをトレーニングなしで超えることができた。
論文参考訳（メタデータ） (2024-07-03T17:55:27Z)
Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation [34.45033554641476]
視覚的コンテンツの自動キャプション手法は、詳細の欠如、幻覚内容の欠如、後続の指示不足などの課題に直面している。フレキシブルなトレーニングフリーパイプラインであるVisualFactChecker(VFC)を提案し、2次元画像と3次元オブジェクトの両方に対して高忠実かつ詳細なキャプションを生成する。 VFCは、1)画像からテキストへのキャプションモデルが複数の初期キャプションを提案する提案、2)大規模言語モデル(LLM)がオブジェクト検出やVQAモデルなどのツールを使用して提案されたキャプションをファクトチェックする検証の3段階で構成されている。
論文参考訳（メタデータ） (2024-04-30T17:55:27Z)
Enhancing Visual Question Answering through Question-Driven Image Captions as Prompts [3.6064695344878093]
視覚的質問応答(VQA)は、視覚と言語の内容を理解し、推論し、推論する必要があるため、AI完全タスクとして知られている。本稿では,VQAパイプラインの中間プロセスとして画像キャプションを組み込むことによる影響について検討する。
論文参考訳（メタデータ） (2024-04-12T16:35:23Z)
Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文参考訳（メタデータ） (2023-10-09T16:57:57Z)
Zero-shot Visual Question Answering with Language Model Feedback [83.65140324876536]
知識に基づく視覚的質問応答(VQA)のための言語モデル指導型キャプションアプローチ LAMOC を提案する。提案手法では,予備学習言語モデル (PLM) である回答予測モデルの文脈として,キャプションモデルによって生成されたキャプションを用いる。
論文参考訳（メタデータ） (2023-05-26T15:04:20Z)
MAViC: Multimodal Active Learning for Video Captioning [8.454261564411436]
本稿では,映像キャプションにおけるアクティブな学習手法の課題に対処するためにMAViCを紹介する。本手法は,獲得関数における視覚的,言語的両次元のセマンティックな類似性と不確実性を統合する。
論文参考訳（メタデータ） (2022-12-11T18:51:57Z)
A Good Prompt Is Worth Millions of Parameters? Low-resource Prompt-based Learning for Vision-Language Models [50.27305012063483]
FewVLMは、視覚言語タスクに関する数発のプロンプトベースの学習ツールである。我々はプレフィックス言語モデリング(PrefixLM)とマスク言語モデリング(MaskedLM)を併用したシーケンス・ツー・シーケンス・トランスフォーマーモデルを事前訓練する。このプロンプトはゼロショット性能に大きく影響するが、少数ショット性能にはほとんど影響しない。
論文参考訳（メタデータ） (2021-10-16T06:07:59Z)
Caption Enriched Samples for Improving Hateful Memes Detection [78.5136090997431]
憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
論文参考訳（メタデータ） (2021-09-22T10:57:51Z)
Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文参考訳（メタデータ） (2020-06-12T14:07:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。