論文の概要: CroMe: Multimodal Fake News Detection using Cross-Modal Tri-Transformer and Metric Learning
- arxiv url: http://arxiv.org/abs/2501.12422v1
- Date: Tue, 21 Jan 2025 09:36:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:53:53.178354
- Title: CroMe: Multimodal Fake News Detection using Cross-Modal Tri-Transformer and Metric Learning
- Title(参考訳): CroMe:クロスモーダル・トリ・トランスフォーマとメトリック学習を用いたマルチモーダルフェイクニュース検出
- Authors: Eunjee Choi, Junhyun Ahn, XinYu Piao, Jong-Kook Kim,
- Abstract要約: マルチモーダルフェイクニュース検知は近年注目を集めている。
既存の方法は、独立に符号化されたユニモーダルデータに依存している。
これらの問題に対処するため,マルチモーダルフェイクニュース検出(CroMe)のためのクロスモーダル・トリ・トランスフォーマとメトリック・ラーニングを提案する。
- 参考スコア(独自算出の注目度): 0.22499166814992438
- License:
- Abstract: Multimodal Fake News Detection has received increasing attention recently. Existing methods rely on independently encoded unimodal data and overlook the advantages of capturing intra-modality relationships and integrating inter-modal similarities using advanced techniques. To address these issues, Cross-Modal Tri-Transformer and Metric Learning for Multimodal Fake News Detection (CroMe) is proposed. CroMe utilizes Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models (BLIP2) as encoders to capture detailed text, image and combined image-text representations. The metric learning module employs a proxy anchor method to capture intra-modality relationships while the feature fusion module uses a Cross-Modal and Tri-Transformer for effective integration. The final fake news detector processes the fused features through a classifier to predict the authenticity of the content. Experiments on datasets show that CroMe excels in multimodal fake news detection.
- Abstract(参考訳): マルチモーダルフェイクニュース検知は近年注目を集めている。
既存の手法は、独立に符号化されたユニモーダルデータに依存しており、モダリティ内関係を捕捉し、高度な技術を用いてモダリティ間類似性を統合するという利点を見落としている。
これらの課題に対処するため,マルチモーダルフェイクニュース検出(CroMe)のためのクロスモーダル・トリ・トランスフォーマとメトリック・ラーニングを提案する。
CroMeは、Frozen Image EncodersとLarge Language Models (BLIP2)によるブートストラップ言語-画像事前トレーニングを使用して、詳細なテキスト、画像、複合画像テキスト表現をキャプチャする。
メトリック学習モジュールは、プロキシアンカーメソッドを使用してモダリティ内関係をキャプチャし、特徴融合モジュールは効果的な統合のためにクロスモーダルとトリ-トランスフォーマーを使用する。
最終フェイクニュース検出器は、融合した特徴を分類器を通して処理し、コンテンツの信頼性を予測する。
データセットの実験では、CroMeがマルチモーダルな偽ニュース検出に優れていることが示されている。
関連論文リスト
- Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation [63.31007867379312]
我々は,大規模な事前学習モデルを直接エンコーダや機能フューザとして統合するフレームワークであるStitchFusionを提案する。
我々は,エンコーディング中に多方向アダプタモジュール(MultiAdapter)を導入し,モーダル間情報転送を実現する。
本モデルは,最小限の追加パラメータを持つ4つのマルチモーダルセグメンテーションデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-02T15:41:16Z) - Hierarchical Multi-modal Transformer for Cross-modal Long Document Classification [74.45521856327001]
階層構造テキストと埋め込み画像で長い文書を分類する方法は、新しい問題である。
本稿では,階層型マルチモーダル変換器 (HMT) を用いたクロスモーダルな文書分類手法を提案する。
本稿では,マルチモーダル変換器と動的マルチスケールマルチモーダル変換器を用いて,画像特徴とセクションと文特徴の複雑な関係をモデル化する。
論文 参考訳(メタデータ) (2024-07-14T07:12:25Z) - Multi-modal Generation via Cross-Modal In-Context Learning [50.45304937804883]
複雑なマルチモーダルプロンプトシーケンスから新しい画像を生成するMGCC法を提案する。
我々のMGCCは、新しい画像生成、マルチモーダル対話の促進、テキスト生成など、多種多様なマルチモーダル機能を示している。
論文 参考訳(メタデータ) (2024-05-28T15:58:31Z) - TT-BLIP: Enhancing Fake News Detection Using BLIP and Tri-Transformer [0.276240219662896]
本稿では,統合視覚言語理解・生成(BLIP)のためのブートストラップ言語画像事前学習を適用した,TT-BLIPと呼ばれるエンドツーエンドモデルを提案する。
マルチモーダル・トリ・トランスフォーマーは3種類のマルチヘッドアテンション機構を用いてトリモーダル特徴を融合し、拡張表現のための統合モーダル性を確保し、マルチモーダルデータ解析を改善した。
論文 参考訳(メタデータ) (2024-03-19T06:36:42Z) - Multi-modal Fake News Detection on Social Media via Multi-grained
Information Fusion [21.042970740577648]
偽ニュース検出のためのMMFN(Multi-fine Multi-modal Fusion Network)を提案する。
そこで我々は,トランスフォーマーを用いた事前学習モデルを用いて,テキストと画像からトークンレベルの特徴を符号化する。
マルチモーダルモジュールは、CLIPエンコーダでエンコードされた粗い機能を考慮して、きめ細かい機能をフューズする。
論文 参考訳(メタデータ) (2023-04-03T09:13:59Z) - Cross-modal Contrastive Learning for Multimodal Fake News Detection [10.760000041969139]
COOLANTはマルチモーダルフェイクニュース検出のためのクロスモーダルコントラスト学習フレームワークである。
クロスモーダル融合モジュールは、クロスモーダル相関を学習するために開発された。
アテンションガイダンスモジュールは、アライメントされたユニモーダル表現を効果的かつ解釈可能に集約するために実装される。
論文 参考訳(メタデータ) (2023-02-25T10:12:34Z) - CLMLF:A Contrastive Learning and Multi-Layer Fusion Method for
Multimodal Sentiment Detection [24.243349217940274]
マルチモーダル感情検出のためのコントラスト学習・多層融合法(CLMLF)を提案する。
具体的には、まずテキストと画像をエンコードして隠れ表現を取得し、次に多層融合モジュールを使用してテキストと画像のトークンレベルの特徴を整列し、融合する。
また、感情分析タスクに加えて、ラベルベースコントラスト学習とデータベースコントラスト学習という2つのコントラスト学習タスクを設計した。
論文 参考訳(メタデータ) (2022-04-12T04:03:06Z) - Cross-Modality Fusion Transformer for Multispectral Object Detection [0.0]
マルチスペクトル画像ペアは、組み合わせた情報を提供し、オブジェクト検出アプリケーションがより信頼性が高く、堅牢になる。
本論文では,CFT (Cross-Modality Fusion Transformer) という,単純かつ効果的なクロスモーダル機能融合手法を提案する。
論文 参考訳(メタデータ) (2021-10-30T15:34:12Z) - OPT: Omni-Perception Pre-Trainer for Cross-Modal Understanding and
Generation [52.037766778458504]
我々は,Omni-perception Pre-Trainer (OPT)を提案する。
OPTは3つのシングルモーダルエンコーダを含むエンコーダ・デコーダ・フレームワークで構築され、各モダリティに対してトークンベースの埋め込みを生成する。
OPTは、強力な画像・テキスト・オーディオ・マルチモーダル表現を学習し、様々なクロスモーダル理解および生成タスクにおける有望な結果を達成することができる。
論文 参考訳(メタデータ) (2021-07-01T06:59:44Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。