論文の概要: Late Fusion with Triplet Margin Objective for Multimodal Ideology
Prediction and Analysis
- arxiv url: http://arxiv.org/abs/2211.02269v1
- Date: Fri, 4 Nov 2022 05:45:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 16:35:41.140859
- Title: Late Fusion with Triplet Margin Objective for Multimodal Ideology
Prediction and Analysis
- Title(参考訳): マルチモーダルイデオロギー予測と解析のためのトリプルトマージン物体による後期核融合
- Authors: Changyuan Qiu, Winston Wu, Xinliang Frederick Zhang, Lu Wang
- Abstract要約: 政治内容とテキストイメージのペアが与えられた場合、モデルが二分あるいは五点スケールのイデオロギーの傾きを予測するマルチモーダルイデオロギー予測のタスクを導入する。
我々は、ニュース記事の詳細な分析を行い、政治的スペクトルにおける画像の内容と使用法の違いを明らかにする。
我々の最高のパフォーマンスモデルであるレイトフュージョンアーキテクチャは、マルチモーダルコンテンツよりも三重対物で事前訓練され、最先端のテキストのみのモデルよりも約4%性能が向上します。
- 参考スコア(独自算出の注目度): 9.85098393546375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior work on ideology prediction has largely focused on single modalities,
i.e., text or images. In this work, we introduce the task of multimodal
ideology prediction, where a model predicts binary or five-point scale
ideological leanings, given a text-image pair with political content. We first
collect five new large-scale datasets with English documents and images along
with their ideological leanings, covering news articles from a wide range of US
mainstream media and social media posts from Reddit and Twitter. We conduct
in-depth analyses of news articles and reveal differences in image content and
usage across the political spectrum. Furthermore, we perform extensive
experiments and ablation studies, demonstrating the effectiveness of targeted
pretraining objectives on different model components. Our best-performing
model, a late-fusion architecture pretrained with a triplet objective over
multimodal content, outperforms the state-of-the-art text-only model by almost
4% and a strong multimodal baseline with no pretraining by over 3%.
- Abstract(参考訳): イデオロギー予測に関する以前の研究は、主にテキストや画像のような単一のモダリティに焦点を当てていた。
そこで本研究では,政治内容とテキスト画像の組み合わせから,二元的あるいは五元的イデオロギー的傾きをモデルが予測するマルチモーダルイデオロギー予測の課題を紹介する。
われわれはまず5つの大規模なデータセットを英語の文書と画像と共に収集し、そのイデオロギー的傾向を捉えた。
我々は、ニュース記事の詳細な分析を行い、政治的スペクトルにおける画像の内容と使用法の違いを明らかにする。
さらに,様々なモデル成分に対する目標前訓練目標の有効性を実証し,広範囲な実験とアブレーション実験を行った。
私たちの最高のパフォーマンスモデルである、マルチモーダルコンテンツに対する3倍の目標をプリトレーニングした遅延フュージョンアーキテクチャは、最先端のテキストのみのモデルをほぼ4%、プリトレーニングなしの強力なマルチモーダルベースラインを3%以上上回っています。
関連論文リスト
- MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - Multi-modal Stance Detection: New Datasets and Model [56.97470987479277]
テキストと画像からなるツイートに対するマルチモーダル姿勢検出について検討する。
我々は、シンプルで効果的なマルチモーダル・プロンプト・チューニング・フレームワーク(TMPT)を提案する。
TMPTはマルチモーダル姿勢検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-22T05:24:19Z) - P^3SUM: Preserving Author's Perspective in News Summarization with Diffusion Language Models [57.571395694391654]
既存のアプローチは、要約の50%以上で、ニュース記事の政治的意見やスタンスを変えている。
政治的視点分類器によって制御される拡散モデルに基づく要約手法であるP3SUMを提案する。
3つのニュース要約データセットの実験により、P3SUMは最先端の要約システムより優れていることが示された。
論文 参考訳(メタデータ) (2023-11-16T10:14:28Z) - Improving Multimodal Classification of Social Media Posts by Leveraging
Image-Text Auxiliary Tasks [38.943074586111564]
微調整型マルチモーダルモデルにおいて,主課題と協調して2つの補助的損失を用いることの有効性について検討した。
第一に、画像テキストコントラスト(ITC)は、投稿内の画像テキスト表現間の距離を最小化するように設計されている。
第2に、画像テキストマッチング(ITM)は、画像とテキスト間の意味的関係を理解するモデルの能力を高める。
論文 参考訳(メタデータ) (2023-09-14T15:30:59Z) - Transfer Learning with Joint Fine-Tuning for Multimodal Sentiment
Analysis [0.6091702876917281]
感情分析にジョイントファインチューニングを用いたトランスファーラーニング手法を提案する。
本提案では,テキストと画像の事前学習モデルを共同調整段階に組み込む際の柔軟性について述べる。
論文 参考訳(メタデータ) (2022-10-11T21:16:14Z) - Image as a Foreign Language: BEiT Pretraining for All Vision and
Vision-Language Tasks [87.6494641931349]
汎用多目的基礎モデルBEiT-3を紹介する。
視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文 参考訳(メタデータ) (2022-08-22T16:55:04Z) - POLITICS: Pretraining with Same-story Article Comparison for Ideology
Prediction and Stance Detection [6.399608844195599]
イデオロギーは政治科学研究の核心である。しかしながら、さまざまなジャンルのテキストでイデオロギーを特徴づけ、予測するための汎用的なツールはいまだに存在しない。
異なるイデオロギーのメディアによって書かれた記事の比較に依拠する,新しいイデオロギー駆動の事前学習目標を用いた事前学習言語モデルについて検討した。
我々のモデルPOLITICSは、イデオロギー予測と姿勢検出タスクにおける強力なベースラインと過去の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2022-05-02T02:10:05Z) - Visual Persuasion in COVID-19 Social Media Content: A Multi-Modal
Characterization [30.710295617831015]
本研究では,マルチモーダルコンテンツにおける説得情報の結果を分析するための計算手法を提案する。
Twitterでシェアされた新型コロナウイルス関連のニュース記事において、人気と信頼性の2つの側面に焦点を当てている。
論文 参考訳(メタデータ) (2021-12-05T02:15:01Z) - Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。
複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。
我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-11-03T08:44:18Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。