論文の概要: Two Stage Context Learning with Large Language Models for Multimodal Stance Detection on Climate Change
- arxiv url: http://arxiv.org/abs/2509.08024v1
- Date: Tue, 09 Sep 2025 10:22:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.207745
- Title: Two Stage Context Learning with Large Language Models for Multimodal Stance Detection on Climate Change
- Title(参考訳): 気候変動におけるマルチモーダルスタンス検出のための大規模言語モデルを用いた2段階文脈学習
- Authors: Lata Pangtey, Omkar Kabde, Shahid Shafi Dar, Nagendra Kumar,
- Abstract要約: 本稿では,階層的融合によるテキスト情報と視覚情報を統合したマルチモーダル姿勢検出フレームワークを提案する。
提案手法はまず,テキストから姿勢関連要約を検索するためにLarge Language Modelを用いており,ドメイン認識画像キャプション生成器は対象トピックのコンテキストで視覚的内容を解釈する。
気候変化関連姿勢検出のベンチマークであるMultiClimate データセットへのアプローチについて検討した。
- 参考スコア(独自算出の注目度): 3.563409707133756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid proliferation of information across digital platforms, stance detection has emerged as a pivotal challenge in social media analysis. While most of the existing approaches focus solely on textual data, real-world social media content increasingly combines text with visual elements creating a need for advanced multimodal methods. To address this gap, we propose a multimodal stance detection framework that integrates textual and visual information through a hierarchical fusion approach. Our method first employs a Large Language Model to retrieve stance-relevant summaries from source text, while a domain-aware image caption generator interprets visual content in the context of the target topic. These modalities are then jointly modeled along with the reply text, through a specialized transformer module that captures interactions between the texts and images. The proposed modality fusion framework integrates diverse modalities to facilitate robust stance classification. We evaluate our approach on the MultiClimate dataset, a benchmark for climate change-related stance detection containing aligned video frames and transcripts. We achieve accuracy of 76.2%, precision of 76.3%, recall of 76.2% and F1-score of 76.2%, respectively, outperforming existing state-of-the-art approaches.
- Abstract(参考訳): デジタルプラットフォームにまたがる情報の急速な普及に伴い、スタンス検出はソーシャルメディア分析において重要な課題となっている。
既存のアプローチのほとんどはテキストデータのみに重点を置いているが、現実のソーシャルメディアコンテンツはテキストと視覚要素を組み合わせることで、高度なマルチモーダル手法の必要性が増している。
このギャップに対処するために,階層的融合によるテキスト情報と視覚情報を統合したマルチモーダル姿勢検出フレームワークを提案する。
提案手法はまず,テキストから姿勢関連要約を検索するためにLarge Language Modelを用いており,ドメイン認識画像キャプション生成器は対象トピックのコンテキストで視覚的内容を解釈する。
これらのモダリティは、返信テキストとともに、テキストと画像間のインタラクションをキャプチャする特別なトランスフォーマーモジュールを通じて、共同でモデル化される。
提案したモダリティ融合フレームワークは、頑健な姿勢分類を容易にするために多様なモダリティを統合する。
気候変化関連姿勢検出のベンチマークであるMultiClimateデータセットに対するアプローチについて検討した。
我々は76.2%の精度、76.3%の精度、76.2%のリコールとF1スコアの76.2%の精度を達成し、既存の最先端アプローチよりも優れている。
関連論文リスト
- SAViL-Det: Semantic-Aware Vision-Language Model for Multi-Script Text Detection [4.013156524547072]
本稿では,多文テキスト検出機能を備えた意味認識型視覚言語モデルSAViL-Detを紹介する。
提案フレームワークは,テキストプロンプトから視覚的特徴への微粒な意味情報を,モーダルな注意を通して適応的に伝達する。
挑戦的なベンチマークの実験では、提案手法の有効性が示されている。
論文 参考訳(メタデータ) (2025-07-27T09:16:39Z) - Fuse & Calibrate: A bi-directional Vision-Language Guided Framework for Referring Image Segmentation [8.383431263616105]
FCNetは,視覚と言語の両方が役割を担っている,双方向誘導融合方式のフレームワークである。
具体的には、視覚誘導方式を用いて初期マルチモーダル融合を行い、キービジョン情報に焦点を当てたマルチモーダル特徴を得る。
次に,言語誘導型キャリブレーションモジュールを提案し,これらのマルチモーダル特徴をキャリブレーションし,入力文の文脈を確実に理解する。
論文 参考訳(メタデータ) (2024-05-18T07:21:12Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Multi-modal Stance Detection: New Datasets and Model [56.97470987479277]
テキストと画像からなるツイートに対するマルチモーダル姿勢検出について検討する。
我々は、シンプルで効果的なマルチモーダル・プロンプト・チューニング・フレームワーク(TMPT)を提案する。
TMPTはマルチモーダル姿勢検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-22T05:24:19Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image
Person Retrieval [29.884153827619915]
IRRA:クロスモーダルImplicit Relation Reasoning and Aligning frameworkを提案する。
ローカルなビジュアルテキストトークン間の関係を学習し、グローバルな画像テキストマッチングを強化する。
提案手法は,3つの公開データセットすべてに対して,最先端の新たな結果を実現する。
論文 参考訳(メタデータ) (2023-03-22T12:11:59Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Semantic Role Aware Correlation Transformer for Text to Video Retrieval [23.183653281610866]
本稿では,テキストや動画をオブジェクト,空間的コンテキスト,時間的コンテキストのセマンティックな役割へと明示的に切り離す新しいトランスフォーマーを提案する。
一般的なYouCook2の予備的な結果は、我々のアプローチが現在の最先端の手法を超越していることを示している。
論文 参考訳(メタデータ) (2022-06-26T11:28:03Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Multi-Modal Semantic Inconsistency Detection in Social Media News Posts [1.160208922584163]
ソーシャルメディア投稿におけるビデオとキャプションのミスマッチを識別するマルチモーダル融合フレームワークを開発した。
このアプローチをトレーニングし、テストするために、4000の現実世界のFacebookニュース投稿の動画ベースのデータセットをキュレートする。
論文 参考訳(メタデータ) (2021-05-26T21:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。