論文の概要: AMPLE: Emotion-Aware Multimodal Fusion Prompt Learning for Fake News Detection
- arxiv url: http://arxiv.org/abs/2410.15591v1
- Date: Mon, 21 Oct 2024 02:19:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:21:22.085334
- Title: AMPLE: Emotion-Aware Multimodal Fusion Prompt Learning for Fake News Detection
- Title(参考訳): AMPLE:フェイクニュース検出のための感情認識型マルチモーダルフュージョン・プロンプト学習
- Authors: Xiaoman Xu, Xiangrun Li, Taihang Wang, Ye Jiang,
- Abstract要約: 本稿では,Emotion-textbfAware textbfMultimodal Fusion textbfPrompt textbfLtextbfEarning (textbfAMPLE) フレームワークについて述べる。
このフレームワークは感情分析ツールを利用してテキストから感情要素を抽出する。
次に、マルチヘッドクロスアテンション(MCA)機構と類似性を考慮した融合手法を用いて、マルチモーダルデータを統合する。
- 参考スコア(独自算出の注目度): 0.1499944454332829
- License:
- Abstract: Detecting fake news in large datasets is challenging due to its diversity and complexity, with traditional approaches often focusing on textual features while underutilizing semantic and emotional elements. Current methods also rely heavily on large annotated datasets, limiting their effectiveness in more nuanced analysis. To address these challenges, this paper introduces Emotion-\textbf{A}ware \textbf{M}ultimodal Fusion \textbf{P}rompt \textbf{L}\textbf{E}arning (\textbf{AMPLE}) framework to address the above issue by combining text sentiment analysis with multimodal data and hybrid prompt templates. This framework extracts emotional elements from texts by leveraging sentiment analysis tools. It then employs Multi-Head Cross-Attention (MCA) mechanisms and similarity-aware fusion methods to integrate multimodal data. The proposed AMPLE framework demonstrates strong performance on two public datasets in both few-shot and data-rich settings, with results indicating the potential of emotional aspects in fake news detection. Furthermore, the study explores the impact of integrating large language models with this method for text sentiment extraction, revealing substantial room for further improvement. The code can be found at :\url{https://github.com/xxm1215/MMM2025_few-shot/
- Abstract(参考訳): 大規模なデータセットで偽ニュースを検出することは、その多様性と複雑さのために困難である。
現在の手法は大きな注釈付きデータセットにも大きく依存しており、より微妙な分析での有効性を制限している。
これらの課題に対処するために、テキスト感情分析とマルチモーダルデータとハイブリッドプロンプトテンプレートを組み合わせることで、上記の問題に対処するEmotion-\textbf{A}ware \textbf{M}ultimodal Fusion \textbf{P}rompt \textbf{L}\textbf{E}arning (\textbf{AMPLE})フレームワークを提案する。
このフレームワークは感情分析ツールを利用してテキストから感情要素を抽出する。
次に、マルチヘッドクロスアテンション(MCA)機構と類似性を考慮した融合手法を用いて、マルチモーダルデータを統合する。
提案したAMPLEフレームワークは、数ショットとデータ豊富な設定の両方で2つの公開データセット上で強力なパフォーマンスを示し、結果として偽ニュース検出における感情的な側面の可能性を示している。
さらに,本手法と大規模言語モデルの統合がテキスト感情抽出に与える影響について検討し,さらなる改善の余地を明らかにした。
コードは以下の通り。\url{https://github.com/xxm1215/MMM2025_few-shot/
関連論文リスト
- Textualized and Feature-based Models for Compound Multimodal Emotion Recognition in the Wild [45.29814349246784]
マルチモーダルな大言語モデル(LLM)は、異なる非テクストのモダリティからテキストに変換される可能性のある明示的な非言語的手がかりに依存している。
本稿では,ビデオにおける複合マルチモーダルERのテキストと特徴に基づくアプローチの可能性について比較する。
論文 参考訳(メタデータ) (2024-07-17T18:01:25Z) - Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box
Machine-Generated Text Detection [69.29017069438228]
大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。
これはまた、ジャーナリズム、教育、アカデミアにおけるそのようなテキストの誤用の可能性への懸念も提起している。
本研究では,機械が生成したテキストを検知し,潜在的誤用を特定できる自動システムの構築を試みている。
論文 参考訳(メタデータ) (2023-05-24T08:55:11Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Towards Robust Visual Information Extraction in Real World: New Dataset
and Novel Solution [30.438041837029875]
実世界のシナリオに向けた堅牢な視覚情報抽出システム(VIES)を提案する。
VIESは、同時テキスト検出、認識、情報抽出のための統一されたエンドツーエンドのトレーニング可能なフレームワークです。
テキストスポッティングと視覚情報抽出の両方の中国初のベンチマークであるephoieと呼ばれる完全注釈付きデータセットを構築した。
論文 参考訳(メタデータ) (2021-01-24T11:05:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。