論文の概要: MultiClimate: Multimodal Stance Detection on Climate Change Videos
- arxiv url: http://arxiv.org/abs/2409.18346v1
- Date: Thu, 26 Sep 2024 23:48:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 06:50:51.806046
- Title: MultiClimate: Multimodal Stance Detection on Climate Change Videos
- Title(参考訳): マルチクライメート:気候変動映像におけるマルチモーダルスタンス検出
- Authors: Jiawen Wang, Longfei Zuo, Siyao Peng, Barbara Plank,
- Abstract要約: 本稿では,手動による姿勢検出データセットであるMultiClimateについて述べる。
我々は、最先端のビジョンと言語モデル、およびマルチクライメート姿勢検出のためのマルチモーダルモデルをデプロイする。
100Mサイズの核融合モデルもCLIPとBLIPを上回り、さらに大きな9BサイズのマルチモーダルIDEFICSとテキストのみのLlama3とGemma2を上回りました。
- 参考スコア(独自算出の注目度): 21.89915927245664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Climate change (CC) has attracted increasing attention in NLP in recent years. However, detecting the stance on CC in multimodal data is understudied and remains challenging due to a lack of reliable datasets. To improve the understanding of public opinions and communication strategies, this paper presents MultiClimate, the first open-source manually-annotated stance detection dataset with $100$ CC-related YouTube videos and $4,209$ frame-transcript pairs. We deploy state-of-the-art vision and language models, as well as multimodal models for MultiClimate stance detection. Results show that text-only BERT significantly outperforms image-only ResNet50 and ViT. Combining both modalities achieves state-of-the-art, $0.747$/$0.749$ in accuracy/F1. Our 100M-sized fusion models also beat CLIP and BLIP, as well as the much larger 9B-sized multimodal IDEFICS and text-only Llama3 and Gemma2, indicating that multimodal stance detection remains challenging for large language models. Our code, dataset, as well as supplementary materials, are available at https://github.com/werywjw/MultiClimate.
- Abstract(参考訳): 気候変動(CC)は近年,NLPの注目を集めている。
しかしながら、マルチモーダルデータにおけるCCに対するスタンスの検出は検討されており、信頼できるデータセットが欠如しているため、依然として困難である。
本稿では,世論とコミュニケーション戦略の理解を深めるために,CC関連YouTubeビデオ100ドルとフレーム書き起こしペア4,209ドルという,手動による手動による姿勢検出データセットであるMultiClimateを提案する。
我々は、最先端のビジョンと言語モデル、およびマルチクライメート姿勢検出のためのマルチモーダルモデルをデプロイする。
その結果、テキストのみのBERTは画像のみのResNet50やViTよりも大幅に優れていた。
両方のモダリティを組み合わせることで、0.747$/$0.749$の精度/F1が得られる。
私たちの100Mサイズの核融合モデルもCLIPとBLIPを上回り、さらに大きな9BサイズのマルチモーダルIDEFICSとテキストのみのLlama3とGemma2を上回りました。
私たちのコード、データセット、および補足資料はhttps://github.com/werywjw/MultiClimate.comで利用可能です。
関連論文リスト
- Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - CSA: Data-efficient Mapping of Unimodal Features to Multimodal Features [18.5370516345512]
CLIPのようなマルチモーダルエンコーダは、ゼロショット画像分類やクロスモーダル検索といったタスクに優れている。
そこで本研究では,2つのユニモーダルエンコーダを用いて,制限データを用いたマルチモーダルエンコーダを複製する正準類似性解析(CSA)を提案する。
論文 参考訳(メタデータ) (2024-10-10T04:54:37Z) - Multi-modal Generation via Cross-Modal In-Context Learning [50.45304937804883]
複雑なマルチモーダルプロンプトシーケンスから新しい画像を生成するMGCC法を提案する。
我々のMGCCは、新しい画像生成、マルチモーダル対話の促進、テキスト生成など、多種多様なマルチモーダル機能を示している。
論文 参考訳(メタデータ) (2024-05-28T15:58:31Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Align before Attend: Aligning Visual and Textual Features for Multimodal
Hateful Content Detection [4.997673761305336]
本稿では,マルチモーダルヘイトフルコンテンツ検出のためのコンテキスト認識型アテンションフレームワークを提案する。
Viz.MUTE(Bengali code-mixed)とMultiOFF(英語)の2つのベンチマークヘイトフルミームデータセットに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-02-15T06:34:15Z) - Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。
最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-08T10:47:24Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - Exploring Multimodal Sentiment Analysis via CBAM Attention and
Double-layer BiLSTM Architecture [3.9850392954445875]
本モデルでは,文中の長距離依存関係を抽出するためにBERT + BiLSTM を用いる。
余分な情報を除去するために、テキスト特徴と画像特徴をスプライシングした後、CNNとCBAMの注意を追加する。
実験結果から,従来のモデルと同様の音響効果が得られた。
論文 参考訳(メタデータ) (2023-03-26T12:34:01Z) - CLMLF:A Contrastive Learning and Multi-Layer Fusion Method for
Multimodal Sentiment Detection [24.243349217940274]
マルチモーダル感情検出のためのコントラスト学習・多層融合法(CLMLF)を提案する。
具体的には、まずテキストと画像をエンコードして隠れ表現を取得し、次に多層融合モジュールを使用してテキストと画像のトークンレベルの特徴を整列し、融合する。
また、感情分析タスクに加えて、ラベルベースコントラスト学習とデータベースコントラスト学習という2つのコントラスト学習タスクを設計した。
論文 参考訳(メタデータ) (2022-04-12T04:03:06Z) - Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。
トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。
また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文 参考訳(メタデータ) (2020-12-23T15:23:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。