論文の概要: TT-BLIP: Enhancing Fake News Detection Using BLIP and Tri-Transformer
- arxiv url: http://arxiv.org/abs/2403.12481v2
- Date: Thu, 23 Jan 2025 07:18:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:56:45.251720
- Title: TT-BLIP: Enhancing Fake News Detection Using BLIP and Tri-Transformer
- Title(参考訳): TT-BLIP:BLIPとTri-Transformerを用いたフェイクニュース検出
- Authors: Eunjee Choi, Jong-Kook Kim,
- Abstract要約: 本稿では,TT-BLIPと呼ばれるエンドツーエンドモデルを導入し,視覚・画像の統一理解と生成にブートストラップ言語-画像事前学習を適用した。
実験は、WeiboとGossipcopという2つのフェイクニュースデータセットを使って行われる。
- 参考スコア(独自算出の注目度): 0.276240219662896
- License:
- Abstract: Detecting fake news has received a lot of attention. Many previous methods concatenate independently encoded unimodal data, ignoring the benefits of integrated multimodal information. Also, the absence of specialized feature extraction for text and images further limits these methods. This paper introduces an end-to-end model called TT-BLIP that applies the bootstrapping language-image pretraining for unified vision-language understanding and generation (BLIP) for three types of information: BERT and BLIPTxt for text, ResNet and BLIPImg for images, and bidirectional BLIP encoders for multimodal information. The Multimodal Tri-Transformer fuses tri-modal features using three types of multi-head attention mechanisms, ensuring integrated modalities for enhanced representations and improved multimodal data analysis. The experiments are performed using two fake news datasets, Weibo and Gossipcop. The results indicate TT-BLIP outperforms the state-of-the-art models.
- Abstract(参考訳): 偽ニュースを検出することには多くの注目を集めている。
従来の多くの手法は独立してアンモダルデータを符号化し、統合マルチモーダル情報の利点を無視していた。
また、テキストや画像の特殊特徴抽出がないため、これらの方法はさらに制限される。
本稿では,テキスト用BERTとBLIPTxt,画像用ResNetとBLIPImg,マルチモーダル情報用BLIPエンコーダの3種類の情報に対して,統合視覚言語理解・生成のためのブートストラップ言語画像事前学習(BLIP)を適用するTT-BLIPというエンドツーエンドモデルを提案する。
マルチモーダル・トリ・トランスフォーマーは3種類のマルチヘッドアテンション機構を用いてトリモーダル特徴を融合し、拡張表現のための統合モーダル性を確保し、マルチモーダルデータ解析を改善した。
実験は、WeiboとGossipcopという2つのフェイクニュースデータセットを使って行われる。
その結果,TT-BLIPは最先端モデルよりも優れていた。
関連論文リスト
- Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - OTSeg: Multi-prompt Sinkhorn Attention for Zero-Shot Semantic Segmentation [57.84148140637513]
Multi-Prompts Sinkhorn Attention (MPSA)は、マルチモーダル設定でTransformerフレームワーク内のクロスアテンションメカニズムを効果的に置き換える。
OTSegは、Zero-Shot Semantic (ZS3)タスクで大幅に向上した、最先端のSOTA(State-of-the-art)パフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-21T07:15:37Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - Multimodal Fake News Detection via CLIP-Guided Learning [26.093561485807832]
本稿では、FND-CLIPフレームワーク、すなわち、コントラスト言語-画像事前学習(CLIP)に基づくマルチモーダルフェイクニュース検出ネットワークを提案する。
対象とするマルチモーダルニュースから,ResNetベースのエンコーダ,BERTベースのエンコーダ,および2つのペアワイズCLIPエンコーダを用いて,画像とテキストから深層表現を抽出する。
マルチモーダル特徴は、2つのモーダルの標準化されたクロスモーダル類似性によって重み付けられたCLIP生成特徴の連結である。
論文 参考訳(メタデータ) (2022-05-28T02:43:18Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - LMR-CBT: Learning Modality-fused Representations with CB-Transformer for
Multimodal Emotion Recognition from Unaligned Multimodal Sequences [5.570499497432848]
マルチモーダル感情認識のためのCB-Transformer (LMR-CBT) を用いて, モダリティ融合表現を学習するための効率的なニューラルネットワークを提案する。
3つの挑戦的なデータセット上で、単語整列と非整列の実験を行います。
論文 参考訳(メタデータ) (2021-12-03T03:43:18Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - OPT: Omni-Perception Pre-Trainer for Cross-Modal Understanding and
Generation [52.037766778458504]
我々は,Omni-perception Pre-Trainer (OPT)を提案する。
OPTは3つのシングルモーダルエンコーダを含むエンコーダ・デコーダ・フレームワークで構築され、各モダリティに対してトークンベースの埋め込みを生成する。
OPTは、強力な画像・テキスト・オーディオ・マルチモーダル表現を学習し、様々なクロスモーダル理解および生成タスクにおける有望な結果を達成することができる。
論文 参考訳(メタデータ) (2021-07-01T06:59:44Z) - RpBERT: A Text-image Relation Propagation-based BERT Model for
Multimodal NER [4.510210055307459]
マルチモーダルなエンティティ認識(MNER)は、ツイート中のNERの精度を向上させるために画像を利用している。
マルチモーダルBERTモデルにテキスト-画像関係の伝搬法を導入する。
MNERデータセットをトレーニングするためのマルチタスクアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-05T02:45:30Z) - MAST: Multimodal Abstractive Summarization with Trimodal Hierarchical
Attention [5.584060970507506]
本稿では,マルチモーダル抽象テキスト要約の新しいモデルであるMASTを提案する。
本稿では,音声モダリティから情報を引き出すことの有用性と課題について検討する。
本稿では,これらの課題を克服する,時系列から連続までの3次階層的注意に基づくモデルを提案する。
論文 参考訳(メタデータ) (2020-10-15T21:08:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。