Fugu-MT 論文翻訳(概要): Improving Multimodal Classification of Social Media Posts by Leveraging Image-Text Auxiliary Tasks

論文の概要: Improving Multimodal Classification of Social Media Posts by Leveraging Image-Text Auxiliary Tasks

arxiv url: http://arxiv.org/abs/2309.07794v2
Date: Sat, 3 Feb 2024 22:42:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 05:03:55.531531
Title: Improving Multimodal Classification of Social Media Posts by Leveraging Image-Text Auxiliary Tasks
Title（参考訳）: 画像テキスト補助タスクの活用によるソーシャルメディア投稿のマルチモーダル分類の改善
Authors: Danae S\'anchez Villegas, Daniel Preo\c{t}iuc-Pietro, Nikolaos Aletras
Abstract要約: 微調整型マルチモーダルモデルにおいて,主課題と協調して2つの補助的損失を用いることの有効性について検討した。第一に、画像テキストコントラスト(ITC)は、投稿内の画像テキスト表現間の距離を最小化するように設計されている。第2に、画像テキストマッチング(ITM)は、画像とテキスト間の意味的関係を理解するモデルの能力を高める。
参考スコア（独自算出の注目度）: 38.943074586111564
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Effectively leveraging multimodal information from social media posts is essential to various downstream tasks such as sentiment analysis, sarcasm detection or hate speech classification. Jointly modeling text and images is challenging because cross-modal semantics might be hidden or the relation between image and text is weak. However, prior work on multimodal classification of social media posts has not yet addressed these challenges. In this work, we present an extensive study on the effectiveness of using two auxiliary losses jointly with the main task during fine-tuning multimodal models. First, Image-Text Contrastive (ITC) is designed to minimize the distance between image-text representations within a post, thereby effectively bridging the gap between posts where the image plays an important role in conveying the post's meaning. Second, Image-Text Matching (ITM) enhances the model's ability to understand the semantic relationship between images and text, thus improving its capacity to handle ambiguous or loosely related modalities. We combine these objectives with five multimodal models across five diverse social media datasets, demonstrating consistent improvements of up to 2.6 points F1. Our comprehensive analysis shows the specific scenarios where each auxiliary task is most effective.
Abstract（参考訳）: ソーシャルメディア投稿からのマルチモーダル情報を効果的に活用することは、感情分析、皮肉検出、ヘイトスピーチ分類などの下流タスクに不可欠である。テキストと画像の共同モデリングは、クロスモーダルセマンティクスが隠されているか、画像とテキストの関係が弱いため、難しい。しかし、ソーシャルメディア投稿のマルチモーダル分類に関する先行研究は、これらの課題にまだ対処していない。本稿では,マルチモーダルモデルの微調整において,メインタスクと協調して2つの補助損失を併用することの有効性について広範囲に検討する。まず、画像テキストコントラスト(itc)は、ポスト内の画像テキスト表現間の距離を最小化するために設計され、画像がポストの意味を伝える上で重要な役割を果たすポスト間のギャップを効果的にブリッジする。第2に,イメージテキストマッチング(image-text matching, itm)は,画像とテキスト間の意味的関係を理解するモデルの能力を高め,曖昧あるいはゆるやかな関係性を扱う能力を向上させる。これらの目的を5つのソーシャルメディアデータセットにまたがる5つのマルチモーダルモデルと組み合わせ,最大2.6点f1の一貫した改善を示す。包括的分析は、各補助課題が最も効果的である特定のシナリオを示す。

関連論文リスト

Can Generated Images Serve as a Viable Modality for Text-Centric Multimodal Learning? [3.966028515034415]
本研究は,テキスト・トゥ・イメージ(T2I)モデルにより生成した画像が,テキスト中心のタスクにおいて重要な相補的モダリティとして機能するかどうかを体系的に検討する。
論文参考訳（メタデータ） (2025-06-21T07:32:09Z)
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文参考訳（メタデータ） (2024-06-14T17:59:40Z)
OT-Attack: Enhancing Adversarial Transferability of Vision-Language Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文参考訳（メタデータ） (2023-12-07T16:16:50Z)
Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal Contrastive Training [33.78990448307792]
画像テキスト検索は、視覚と言語間の意味的関係を理解するための中心的な問題である。以前の作品では、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。本研究では、粗い表現学習ときめ細かい表現学習を統一した枠組みに組み合わせて、新しい視点から画像テキストの検索を行う。
論文参考訳（メタデータ） (2023-06-15T00:19:13Z)
Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文参考訳（メタデータ） (2023-04-03T05:07:49Z)
Towards Unifying Medical Vision-and-Language Pre-training via Soft Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。 PTUnifier という2つのタイプを統一する手法を提案する。まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文参考訳（メタデータ） (2023-02-17T15:43:42Z)
Multi-Granularity Cross-Modality Representation Learning for Named Entity Recognition on Social Media [11.235498285650142]
ソーシャルメディア上の名前付きエンティティ認識(NER)とは、構造化されていない自由なコンテンツからエンティティを発見し分類することを指す。本研究は,多粒性クロスモダリティ表現学習を導入する。実験の結果,提案手法は2つのツイートのベンチマークデータセット上でSOTAあるいはSOTAの性能を近似することができることがわかった。
論文参考訳（メタデータ） (2022-10-19T15:14:55Z)
Cross-Media Keyphrase Prediction: A Unified Framework with Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文参考訳（メタデータ） (2020-11-03T08:44:18Z)
Preserving Semantic Neighborhoods for Robust Cross-modal Retrieval [41.505920288928365]
マルチモーダルデータは、クロスモーダル検索方法への関心を喚起している。テキストと画像のサブスペースのセマンティックコヒーレンシを促進する新しいモダリティ損失を提案する。提案手法では,ペア画像とテキストが近接するだけでなく,期待される画像イメージとテキストテキストの関係も観察される。
論文参考訳（メタデータ） (2020-07-16T20:32:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。