Fugu-MT 論文翻訳(概要): Multi-modal Stance Detection: New Datasets and Model

論文の概要: Multi-modal Stance Detection: New Datasets and Model

arxiv url: http://arxiv.org/abs/2402.14298v2
Date: Fri, 17 May 2024 13:36:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-20 18:31:55.314897
Title: Multi-modal Stance Detection: New Datasets and Model
Title（参考訳）: マルチモーダルスタンス検出:新しいデータセットとモデル
Authors: Bin Liang, Ang Li, Jingqian Zhao, Lin Gui, Min Yang, Yue Yu, Kam-Fai Wong, Ruifeng Xu,
Abstract要約: テキストと画像からなるツイートに対するマルチモーダル姿勢検出について検討する。我々は、シンプルで効果的なマルチモーダル・プロンプト・チューニング・フレームワーク(TMPT)を提案する。 TMPTはマルチモーダル姿勢検出における最先端性能を実現する。
参考スコア（独自算出の注目度）: 56.97470987479277
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Stance detection is a challenging task that aims to identify public opinion from social media platforms with respect to specific targets. Previous work on stance detection largely focused on pure texts. In this paper, we study multi-modal stance detection for tweets consisting of texts and images, which are prevalent in today's fast-growing social media platforms where people often post multi-modal messages. To this end, we create five new multi-modal stance detection datasets of different domains based on Twitter, in which each example consists of a text and an image. In addition, we propose a simple yet effective Targeted Multi-modal Prompt Tuning framework (TMPT), where target information is leveraged to learn multi-modal stance features from textual and visual modalities. Experimental results on our three benchmark datasets show that the proposed TMPT achieves state-of-the-art performance in multi-modal stance detection.
Abstract（参考訳）: スタンス検出は、特定のターゲットに関して、ソーシャルメディアプラットフォームから世論を識別することを目的とした課題である。スタンス検出に関するこれまでの研究は、純粋なテキストに主に焦点をあてていた。本稿では,テキストと画像からなるつぶやきに対するマルチモーダルな姿勢検出について検討する。この目的のために、Twitterに基づいて異なるドメインの5つの新しいマルチモーダル姿勢検出データセットを作成し、各サンプルはテキストと画像で構成されている。さらに,テキスト・ビジュアル・モダリティからマルチモーダル・スタンスの特徴を学習するために,目的情報を活用できるシンプルなマルチモーダル・プロンプト・チューニング・フレームワーク (TMPT) を提案する。 3つのベンチマークデータセットによる実験結果から,提案したTMPTは,マルチモーダル姿勢検出における最先端性能を実現することが示された。

関連論文リスト

Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
MIRe: Enhancing Multimodal Queries Representation via Fusion-Free Modality Interaction for Multimodal Retrieval [26.585985828583304]
我々は、アライメント中にテキストの特徴を融合させることなく、モダリティインタラクションを実現する検索フレームワークMIReを紹介する。提案手法では,テキスト駆動型信号を視覚表現に戻すことなく,テキストクエリを視覚埋め込みに対応させることができる。実験により,我々の事前学習戦略はマルチモーダルクエリの理解を著しく向上させることが示された。
論文参考訳（メタデータ） (2024-11-13T04:32:58Z)
Multimodal Multi-turn Conversation Stance Detection: A Challenge Dataset and Effective Model [9.413870182630362]
我々は,MmMtCSDと呼ばれるマルチモーダル対話姿勢検出データセットを導入する。本稿では,テキストおよび視覚的モーダルから共同姿勢表現を学習する,多モーダルな大規模言語モデル姿勢検出フレームワーク(MLLM-SD)を提案する。 MmMtCSD実験は,マルチモーダル姿勢検出のためのMLLM-SD手法の最先端性能を示す。
論文参考訳（メタデータ） (2024-09-01T03:16:30Z)
Detecting Misinformation in Multimedia Content through Cross-Modal Entity Consistency: A Dual Learning Approach [10.376378437321437]
クロスモーダルなエンティティの整合性を利用して、ビデオコンテンツから誤情報を検出するためのマルチメディア誤情報検出フレームワークを提案する。以上の結果から,MultiMDは最先端のベースラインモデルより優れていることが示された。
論文参考訳（メタデータ） (2024-08-16T16:14:36Z)
VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文参考訳（メタデータ） (2024-01-24T18:35:21Z)
Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。 DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文参考訳（メタデータ） (2023-09-25T15:05:46Z)
Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文参考訳（メタデータ） (2023-08-30T08:33:13Z)
Read, Look or Listen? What's Needed for Solving a Multimodal Dataset [7.0430001782867]
マルチモーダル・データセットを解析するための2段階の手法を提案する。これは、人間のアノテーションの小さなシードを利用して、各マルチモーダル・インスタンスをその処理に必要なモダリティにマッピングする。ビデオ質問応答データセットであるTVQAに我々のアプローチを適用し、ほとんどの質問が特定のモダリティに対して実質的な偏見を伴わずに単一のモダリティで答えられることを発見した。我々は、MERLOT Reserveを分析し、テキストや音声よりも画像に基づく質問に苦しむが、聴覚話者の識別にも苦しむことを発見した。
論文参考訳（メタデータ） (2023-07-06T08:02:45Z)
Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文参考訳（メタデータ） (2023-05-29T17:50:33Z)
Detecting and Grounding Multi-Modal Media Manipulation [32.34908534582532]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。 DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文参考訳（メタデータ） (2023-04-05T16:20:40Z)
Multimodal Fake News Detection with Adaptive Unimodal Representation Aggregation [28.564442206829625]
AURAは、適応的な一助表現アグリゲーションを備えたマルチモーダルフェイクニュース検出ネットワークである。我々は,一様および多様の表現に従って,粗いレベルの偽ニュース検出とクロスモーダルな共存学習を行う。 WeiboとGossipcopの実験は、AURAがいくつかの最先端のFNDスキームに勝つことを証明している。
論文参考訳（メタデータ） (2022-06-12T14:06:55Z)
Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文参考訳（メタデータ） (2020-04-10T06:31:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。