論文の概要: Caption Enriched Samples for Improving Hateful Memes Detection
- arxiv url: http://arxiv.org/abs/2109.10649v1
- Date: Wed, 22 Sep 2021 10:57:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 18:32:59.785279
- Title: Caption Enriched Samples for Improving Hateful Memes Detection
- Title(参考訳): ヘイトフルミーム検出を改善するためのキャプション強化サンプル
- Authors: Efrat Blaier, Itzik Malkiel, Lior Wolf
- Abstract要約: 憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。
ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
- 参考スコア(独自算出の注目度): 78.5136090997431
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recently introduced hateful meme challenge demonstrates the difficulty of
determining whether a meme is hateful or not. Specifically, both unimodal
language models and multimodal vision-language models cannot reach the human
level of performance. Motivated by the need to model the contrast between the
image content and the overlayed text, we suggest applying an off-the-shelf
image captioning tool in order to capture the first. We demonstrate that the
incorporation of such automatic captions during fine-tuning improves the
results for various unimodal and multimodal models. Moreover, in the unimodal
case, continuing the pre-training of language models on augmented and original
caption pairs, is highly beneficial to the classification accuracy.
- Abstract(参考訳): 最近導入された憎しみのあるミームチャレンジは、ミームが憎悪であるか否かを決定するのが難しいことを示している。
特に、ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに達することができない。
画像内容と重ね合わせテキストのコントラストをモデル化する必要性に動機づけられ,まずは既製画像キャプションツールを適用することを提案する。
微調整中の自動キャプションの導入により, 様々な単調モデルやマルチモーダルモデルの結果が向上することが実証された。
さらに,一助詞の場合,拡張字幕対および原文対における言語モデルの事前学習は,その分類精度に非常に有益である。
関連論文リスト
- Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models [63.01630478059315]
マルチモーダルモデルの最近の進歩は、性能向上のための書き直しキャプションの価値を強調している。
プレトレーニングにおける合成キャプションとオリジナルのWebcrawled AltTextsとの相互作用が、まだよく理解されていないかどうかは不明だ。
様々なマルチモーダルモデルに適した多様なキャプションフォーマットを生成するために,新しい,制御可能な,スケーラブルなキャプションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-03T17:54:52Z) - FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - Reading Is Believing: Revisiting Language Bottleneck Models for Image Classification [4.1205832766381985]
我々は、画像分類のためのディープラーニングモデルの説明可能性を保証するアプローチとして、言語ボトルネックモデルを再考する。
実験により、現代の画像キャプタと事前訓練された言語モデルを組み合わせた言語ボトルネックモデルにより、ブラックボックスモデルを超える画像分類精度が得られることを示す。
論文 参考訳(メタデータ) (2024-06-22T10:49:34Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Macroscopic Control of Text Generation for Image Captioning [4.742874328556818]
問題を解くために2つの新しい方法が導入された。
前者問題に対して,文品質,文長,文時制,名詞数などのマクロ文属性を制御可能な制御信号を導入する。
後者の問題に対して,画像テキストマッチングモデルを用いて,前向きと後向きの両方で生成した文の品質を測定し,最終的に適切な文を選択する戦略を革新的に提案する。
論文 参考訳(メタデータ) (2021-01-20T07:20:07Z) - Detecting Hate Speech in Multi-modal Memes [14.036769355498546]
我々は,マルチモーダルミームにおけるヘイトスピーチ検出に着目し,ミームが興味深いマルチモーダル融合問題を引き起こす。
Facebook Meme Challenge citekiela 2020hatefulは、ミームが憎悪であるかどうかを予測するバイナリ分類問題を解決することを目的としている。
論文 参考訳(メタデータ) (2020-12-29T18:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。