論文の概要: Meme Sentiment Analysis Enhanced with Multimodal Spatial Encoding and
Facial Embedding
- arxiv url: http://arxiv.org/abs/2303.01781v1
- Date: Fri, 3 Mar 2023 08:44:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 15:43:00.049929
- Title: Meme Sentiment Analysis Enhanced with Multimodal Spatial Encoding and
Facial Embedding
- Title(参考訳): マルチモーダル空間符号化と顔埋め込みによるミーム感情分析
- Authors: Muzhaffar Hazman, Susan McKeever, Josephine Griffith
- Abstract要約: ミームから抽出した視覚オブジェクト,顔,テキストクラスタの空間的位置を組み込むことにより,性能向上を示す。
また,マルチモーダル・ミーム分類器における画像表現の強調効果として,顔の埋め込みについて述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Internet memes are characterised by the interspersing of text amongst visual
elements. State-of-the-art multimodal meme classifiers do not account for the
relative positions of these elements across the two modalities, despite the
latent meaning associated with where text and visual elements are placed.
Against two meme sentiment classification datasets, we systematically show
performance gains from incorporating the spatial position of visual objects,
faces, and text clusters extracted from memes. In addition, we also present
facial embedding as an impactful enhancement to image representation in a
multimodal meme classifier. Finally, we show that incorporating this spatial
information allows our fully automated approaches to outperform their
corresponding baselines that rely on additional human validation of
OCR-extracted text.
- Abstract(参考訳): インターネットミームは視覚要素間のテキストの相互分散によって特徴づけられる。
最先端のマルチモーダルミーム分類器は、テキストとビジュアル要素が置かれている場所に関連する潜在的な意味にもかかわらず、2つのモダリティをまたいでこれらの要素の相対的な位置を考慮しない。
2つのミーム感情分類データセットに対して,ミームから抽出した視覚物体,顔,テキストクラスタの空間的位置を組み込むことによる性能向上を体系的に示す。
さらに,マルチモーダルミーム分類器において,画像表現のインパクトの高い拡張として顔埋め込みを提案する。
最後に,この空間的情報を組み込むことで,ocr抽出テキストの人間的検証に依存する対応するベースラインを,完全に自動化したアプローチで上回ることができることを示す。
関連論文リスト
- VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - InternLM-XComposer2: Mastering Free-form Text-Image Composition and
Comprehension in Vision-Language Large Model [108.42241250772643]
InternLM-XComposer2は自由形式のテキスト画像合成と理解に優れた視覚言語モデルである。
このモデルは従来の視覚言語理解を超越し、多様な入力からインターリーブされたテキストイメージコンテンツを作成する。
InternLM2-7BをベースとしたInternLM-XComposer2の高画質長文マルチモーダルコンテンツにおける優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-01-29T18:59:02Z) - Stacked Cross-modal Feature Consolidation Attention Networks for Image
Captioning [1.4337588659482516]
本稿では,高レベルなセマンティック概念と視覚情報を統合するための特徴合成手法を利用する。
画像キャプションのための重畳型クロスモーダル特徴統合(SCFC)アテンションネットワークを提案し,同時にクロスモーダル特徴を集約する。
提案したSCFCは、MSCOCOとFlickr30Kデータセットの一般的な指標から、様々な最先端の画像キャプションベンチマークを上回ります。
論文 参考訳(メタデータ) (2023-02-08T09:15:09Z) - ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View
Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。
まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。
また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文 参考訳(メタデータ) (2023-01-31T01:57:52Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Compositional Mixture Representations for Vision and Text [43.2292923754127]
視覚と言語の間の共通表現空間により、ディープネットワークは画像内のオブジェクトと対応する意味の意味を関連付けることができる。
本稿では,テキストの合成性を視覚領域に含ませる共有ガウス混合表現を,明示的な位置監督を伴わずに学習するモデルを提案する。
論文 参考訳(メタデータ) (2022-06-13T18:16:40Z) - Guiding Attention using Partial-Order Relationships for Image Captioning [2.620091916172863]
誘導注意ネットワーク機構は、視覚シーンとテキスト記述の関係を利用する。
この埋め込み空間は、共有セマンティック空間における類似の画像、トピック、キャプションを許容する。
MSCOCOデータセットに基づく実験結果は,我々のアプローチの競争力を示している。
論文 参考訳(メタデータ) (2022-04-15T14:22:09Z) - Multi-modal Text Recognition Networks: Interactive Enhancements between
Visual and Semantic Features [11.48760300147023]
本稿では,MATRN(Multi-Almod Text Recognition Network)と呼ばれる新しい手法を提案する。
MATRNは視覚的特徴対と意味的特徴対を特定し、空間情報を意味的特徴にエンコードする。
実験の結果,MATRNは7つのベンチマークで最先端のパフォーマンスを達成できた。
論文 参考訳(メタデータ) (2021-11-30T10:22:11Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding [6.4901484665257545]
本稿では,視覚的およびテキスト的データの様々なコンポーネントを,データの重要な部分に参加することによってキャプチャする,新しいマルチヘッド自己注意ネットワークを提案する。
提案手法は,MS-COCOおよびFlicker30Kデータセット上の画像テキスト検索タスクにおける最新の結果を実現する。
論文 参考訳(メタデータ) (2020-01-11T05:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。