論文の概要: Multi-modal Stance Detection: New Datasets and Model
- arxiv url: http://arxiv.org/abs/2402.14298v1
- Date: Thu, 22 Feb 2024 05:24:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 16:23:16.227891
- Title: Multi-modal Stance Detection: New Datasets and Model
- Title(参考訳): マルチモーダルスタンス検出:新しいデータセットとモデル
- Authors: Bin Liang, Ang Li, Jingqian Zhao, Lin Gui, Min Yang, Yue Yu, Kam-Fai
Wong and Ruifeng Xu
- Abstract要約: テキストと画像からなるツイートに対するマルチモーダル姿勢検出について検討する。
我々は、シンプルで効果的なマルチモーダル・プロンプト・チューニング・フレームワーク(TMPT)を提案する。
TMPTはマルチモーダル姿勢検出における最先端性能を実現する。
- 参考スコア(独自算出の注目度): 59.428622374682234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stance detection is a challenging task that aims to identify public opinion
from social media platforms with respect to specific targets. Previous work on
stance detection largely focused on pure texts. In this paper, we study
multi-modal stance detection for tweets consisting of texts and images, which
are prevalent in today's fast-growing social media platforms where people often
post multi-modal messages. To this end, we create five new multi-modal stance
detection datasets of different domains based on Twitter, in which each example
consists of a text and an image. In addition, we propose a simple yet effective
Targeted Multi-modal Prompt Tuning framework (TMPT), where target information
is leveraged to learn multi-modal stance features from textual and visual
modalities. Experimental results on our three benchmark datasets show that the
proposed TMPT achieves state-of-the-art performance in multi-modal stance
detection.
- Abstract(参考訳): スタンス検出は、特定のターゲットに関してソーシャルメディアプラットフォームから世論を特定することを目的とした課題である。
姿勢検出に関する以前の研究は、主に純粋なテキストに焦点を当てていた。
本稿では,マルチモーダルメッセージを頻繁に投稿するソーシャルメディアプラットフォームで普及しているテキストと画像からなるツイートに対するマルチモーダルスタンス検出手法について検討する。
この目的のために、Twitterに基づいて異なるドメインの5つの新しいマルチモーダル姿勢検出データセットを作成し、各サンプルはテキストと画像で構成されている。
さらに,目的情報を活用し,テキスト的および視覚的モダリティからマルチモーダルなスタンス特徴を学習する,単純かつ効果的なマルチモーダルプロンプトチューニングフレームワーク(tmpt)を提案する。
3つのベンチマークデータセットによる実験結果から,提案したTMPTは,マルチモーダル姿勢検出における最先端性能を実現することが示された。
関連論文リスト
- Multimodal Multi-turn Conversation Stance Detection: A Challenge Dataset and Effective Model [9.413870182630362]
我々は,MmMtCSDと呼ばれるマルチモーダル対話姿勢検出データセットを導入する。
本稿では,テキストおよび視覚的モーダルから共同姿勢表現を学習する,多モーダルな大規模言語モデル姿勢検出フレームワーク(MLLM-SD)を提案する。
MmMtCSD実験は,マルチモーダル姿勢検出のためのMLLM-SD手法の最先端性能を示す。
論文 参考訳(メタデータ) (2024-09-01T03:16:30Z) - Detecting Misinformation in Multimedia Content through Cross-Modal Entity Consistency: A Dual Learning Approach [10.376378437321437]
クロスモーダルなエンティティの整合性を利用して、ビデオコンテンツから誤情報を検出するためのマルチメディア誤情報検出フレームワークを提案する。
以上の結果から,MultiMDは最先端のベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-08-16T16:14:36Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-09-25T15:05:46Z) - Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文 参考訳(メタデータ) (2023-08-30T08:33:13Z) - Read, Look or Listen? What's Needed for Solving a Multimodal Dataset [7.0430001782867]
マルチモーダル・データセットを解析するための2段階の手法を提案する。これは、人間のアノテーションの小さなシードを利用して、各マルチモーダル・インスタンスをその処理に必要なモダリティにマッピングする。
ビデオ質問応答データセットであるTVQAに我々のアプローチを適用し、ほとんどの質問が特定のモダリティに対して実質的な偏見を伴わずに単一のモダリティで答えられることを発見した。
我々は、MERLOT Reserveを分析し、テキストや音声よりも画像に基づく質問に苦しむが、聴覚話者の識別にも苦しむことを発見した。
論文 参考訳(メタデータ) (2023-07-06T08:02:45Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Detecting and Grounding Multi-Modal Media Manipulation [32.34908534582532]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:20:40Z) - Multimodal Fake News Detection with Adaptive Unimodal Representation
Aggregation [28.564442206829625]
AURAは、適応的な一助表現アグリゲーションを備えたマルチモーダルフェイクニュース検出ネットワークである。
我々は,一様および多様の表現に従って,粗いレベルの偽ニュース検出とクロスモーダルな共存学習を行う。
WeiboとGossipcopの実験は、AURAがいくつかの最先端のFNDスキームに勝つことを証明している。
論文 参考訳(メタデータ) (2022-06-12T14:06:55Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。