論文の概要: Multimodal Multi-turn Conversation Stance Detection: A Challenge Dataset and Effective Model
- arxiv url: http://arxiv.org/abs/2409.00597v1
- Date: Sun, 1 Sep 2024 03:16:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 13:43:27.556535
- Title: Multimodal Multi-turn Conversation Stance Detection: A Challenge Dataset and Effective Model
- Title(参考訳): マルチモーダル・マルチターン会話スタンス検出:課題データセットと有効モデル
- Authors: Fuqiang Niu, Zebang Cheng, Xianghua Fu, Xiaojiang Peng, Genan Dai, Yin Chen, Hu Huang, Bowen Zhang,
- Abstract要約: 我々は,MmMtCSDと呼ばれるマルチモーダル対話姿勢検出データセットを導入する。
本稿では,テキストおよび視覚的モーダルから共同姿勢表現を学習する,多モーダルな大規模言語モデル姿勢検出フレームワーク(MLLM-SD)を提案する。
MmMtCSD実験は,マルチモーダル姿勢検出のためのMLLM-SD手法の最先端性能を示す。
- 参考スコア(独自算出の注目度): 9.413870182630362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stance detection, which aims to identify public opinion towards specific targets using social media data, is an important yet challenging task. With the proliferation of diverse multimodal social media content including text, and images multimodal stance detection (MSD) has become a crucial research area. However, existing MSD studies have focused on modeling stance within individual text-image pairs, overlooking the multi-party conversational contexts that naturally occur on social media. This limitation stems from a lack of datasets that authentically capture such conversational scenarios, hindering progress in conversational MSD. To address this, we introduce a new multimodal multi-turn conversational stance detection dataset (called MmMtCSD). To derive stances from this challenging dataset, we propose a novel multimodal large language model stance detection framework (MLLM-SD), that learns joint stance representations from textual and visual modalities. Experiments on MmMtCSD show state-of-the-art performance of our proposed MLLM-SD approach for multimodal stance detection. We believe that MmMtCSD will contribute to advancing real-world applications of stance detection research.
- Abstract(参考訳): ソーシャルメディアデータを使って特定のターゲットに対する世論を識別することを目的としたスタンス検出は、重要な課題でありながら難しい課題である。
テキストを含む多様なマルチモーダルソーシャルメディアコンテンツの普及に伴い、画像多モーダルスタンス検出(MSD)が重要な研究領域となっている。
しかし、既存のMSD研究は、ソーシャルメディア上で自然に起こる多人数会話の文脈を見越して、個々のテキストイメージペア内のスタンスをモデル化することに重点を置いている。
この制限は、そのような会話シナリオを真に捉え、会話MSDの進歩を妨げるデータセットの欠如に起因している。
そこで本研究では,MmMtCSDと呼ばれるマルチモーダル対話姿勢検出データセットを提案する。
この挑戦的なデータセットからスタンスを導出するために,テキストと視覚のモダリティから共同姿勢表現を学習する多モーダルな大規模言語モデルスタンス検出フレームワーク(MLLM-SD)を提案する。
MmMtCSD実験は,マルチモーダル姿勢検出のためのMLLM-SD手法の最先端性能を示す。
我々は,MmMtCSDがスタンス検出研究の現実的応用の進展に寄与すると信じている。
関連論文リスト
- A Survey of Stance Detection on Social Media: New Directions and Perspectives [50.27382951812502]
姿勢検出は 感情コンピューティングにおける 重要なサブフィールドとして現れました
近年は、効果的な姿勢検出手法の開発に対する研究の関心が高まっている。
本稿では,ソーシャルメディア上での姿勢検出手法に関する包括的調査を行う。
論文 参考訳(メタデータ) (2024-09-24T03:06:25Z) - Interactive Masked Image Modeling for Multimodal Object Detection in Remote Sensing [2.0528748158119434]
マルチモーダル学習は、異なるデータモダリティの機能を統合するために使用することができ、それによって検出精度が向上する。
本稿では,事前学習手法としてMasked Image Modeling (MIM) を提案する。
そこで本稿では,リモートセンシングにおけるオブジェクト検出に特に有用である,異なるトークン間のインタラクションを確立するための対話型MIM手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T14:50:50Z) - Detecting Misinformation in Multimedia Content through Cross-Modal Entity Consistency: A Dual Learning Approach [10.376378437321437]
クロスモーダルなエンティティの整合性を利用して、ビデオコンテンツから誤情報を検出するためのマルチメディア誤情報検出フレームワークを提案する。
以上の結果から,MultiMDは最先端のベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-08-16T16:14:36Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - A Challenge Dataset and Effective Models for Conversational Stance Detection [26.208989232347058]
マルチターン会話姿勢検出データセット(textbfMT-CSD)を導入する。
本稿では,会話データに固有の長距離および短距離の依存関係に対処するグローバルローカルアテンションネットワーク(textbfGLAN)を提案する。
私たちのデータセットは、ドメイン間スタンス検出の進歩を触媒する貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-03-17T08:51:01Z) - Multi-modal Stance Detection: New Datasets and Model [56.97470987479277]
テキストと画像からなるツイートに対するマルチモーダル姿勢検出について検討する。
我々は、シンプルで効果的なマルチモーダル・プロンプト・チューニング・フレームワーク(TMPT)を提案する。
TMPTはマルチモーダル姿勢検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-22T05:24:19Z) - Recent Advances in Hate Speech Moderation: Multimodality and the Role of Large Models [52.24001776263608]
この包括的調査は、HSモデレーションの最近の歩みを掘り下げている。
大型言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の急成長する役割を強調した。
研究における既存のギャップを、特に表現不足言語や文化の文脈で特定する。
論文 参考訳(メタデータ) (2024-01-30T03:51:44Z) - Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文 参考訳(メタデータ) (2023-08-30T08:33:13Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。