論文の概要: Improving Multimodal Classification of Social Media Posts by Leveraging
Image-Text Auxiliary tasks
- arxiv url: http://arxiv.org/abs/2309.07794v1
- Date: Thu, 14 Sep 2023 15:30:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 12:33:53.175388
- Title: Improving Multimodal Classification of Social Media Posts by Leveraging
Image-Text Auxiliary tasks
- Title(参考訳): 画像テキスト補助タスクの活用によるソーシャルメディア投稿のマルチモーダル分類の改善
- Authors: Danae S\'anchez Villegas, Daniel Preo\c{t}iuc-Pietro, Nikolaos Aletras
- Abstract要約: 本稿では,事前学習型マルチモーダルモデルの微調整において,主課題と協調して2つの補助的損失を用いることを提案する。
これらの目的と5つのマルチモーダルモデルを組み合わせることで、4つのソーシャルメディアデータセット間で一貫した改善を実証する。
- 参考スコア(独自算出の注目度): 38.943074586111564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effectively leveraging multimodal information from social media posts is
essential to various downstream tasks such as sentiment analysis, sarcasm
detection and hate speech classification. However, combining text and image
information is challenging because of the idiosyncratic cross-modal semantics
with hidden or complementary information present in matching image-text pairs.
In this work, we aim to directly model this by proposing the use of two
auxiliary losses jointly with the main task when fine-tuning any pre-trained
multimodal model. Image-Text Contrastive (ITC) brings image-text
representations of a post closer together and separates them from different
posts, capturing underlying dependencies. Image-Text Matching (ITM) facilitates
the understanding of semantic correspondence between images and text by
penalizing unrelated pairs. We combine these objectives with five multimodal
models, demonstrating consistent improvements across four popular social media
datasets. Furthermore, through detailed analysis, we shed light on the specific
scenarios and cases where each auxiliary task proves to be most effective.
- Abstract(参考訳): ソーシャルメディア投稿からのマルチモーダル情報を効果的に活用することは、感情分析、皮肉検出、ヘイトスピーチ分類などの下流タスクに不可欠である。
しかし, テキスト情報と画像情報の組み合わせは, 一致した画像テキスト対に存在する隠蔽情報や補補完情報と, 慣用的横断的意味論により困難である。
本研究は,事前学習したマルチモーダルモデルの微調整を行う際に,メインタスクと協調して2つの補助損失の利用を提案することにより,直接モデル化することを目的とする。
Image-Text Contrastive (ITC)は、投稿のイメージテキスト表現を近接させ、異なる投稿から分離し、基盤となる依存関係をキャプチャする。
画像テキストマッチング(ITM)は、画像とテキスト間の意味的対応の理解を容易にする。
これらの目的を5つのマルチモーダルモデルと組み合わせ,4つの人気のあるソーシャルメディアデータセットで一貫した改善を示す。
さらに,詳細な分析を行い,各補助タスクが最も効果的であることを示す特定のシナリオと事例について考察した。
関連論文リスト
- VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal
Contrastive Training [33.78990448307792]
画像テキスト検索は、視覚と言語間の意味的関係を理解するための中心的な問題である。
以前の作品では、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。
本研究では、粗い表現学習ときめ細かい表現学習を統一した枠組みに組み合わせて、新しい視点から画像テキストの検索を行う。
論文 参考訳(メタデータ) (2023-06-15T00:19:13Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - Multi-Granularity Cross-Modality Representation Learning for Named
Entity Recognition on Social Media [11.235498285650142]
ソーシャルメディア上の名前付きエンティティ認識(NER)とは、構造化されていない自由なコンテンツからエンティティを発見し分類することを指す。
本研究は,多粒性クロスモダリティ表現学習を導入する。
実験の結果,提案手法は2つのツイートのベンチマークデータセット上でSOTAあるいはSOTAの性能を近似することができることがわかった。
論文 参考訳(メタデータ) (2022-10-19T15:14:55Z) - Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。
複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。
我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-11-03T08:44:18Z) - Preserving Semantic Neighborhoods for Robust Cross-modal Retrieval [41.505920288928365]
マルチモーダルデータは、クロスモーダル検索方法への関心を喚起している。
テキストと画像のサブスペースのセマンティックコヒーレンシを促進する新しいモダリティ損失を提案する。
提案手法では,ペア画像とテキストが近接するだけでなく,期待される画像イメージとテキストテキストの関係も観察される。
論文 参考訳(メタデータ) (2020-07-16T20:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。