論文の概要: Similarity Guided Multimodal Fusion Transformer for Semantic Location Prediction in Social Media
- arxiv url: http://arxiv.org/abs/2405.05760v1
- Date: Thu, 9 May 2024 13:32:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 13:23:01.092363
- Title: Similarity Guided Multimodal Fusion Transformer for Semantic Location Prediction in Social Media
- Title(参考訳): ソーシャルメディアにおける意味的位置予測のための類似性指導型マルチモーダル核融合変換器
- Authors: Zhizhen Zhang, Ning Wang, Haojie Li, Zhihui Wang,
- Abstract要約: 意味的位置予測の目的は、ソーシャルメディア投稿から関連する意味的位置情報を抽出することである。
既存の手法では特徴表現が不十分で、類似性の総合的な統合を考慮できない。
ソーシャルユーザのセマンティックロケーションを予測するために,SG-MFT(Simisity-Guided Multimodal Fusion Transformer)を提案する。
- 参考スコア(独自算出の注目度): 34.664388374279596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The purpose of semantic location prediction is to extract relevant semantic location information from multimodal social media posts, offering a more contextual understanding of daily activities compared to GPS coordinates. However, this task becomes challenging due to the presence of noise and irrelevant information in "text-image" pairs. Existing methods suffer from insufficient feature representations and fail to consider the comprehensive integration of similarity at different granularities, making it difficult to filter out noise and irrelevant information. To address these challenges, we propose a Similarity-Guided Multimodal Fusion Transformer (SG-MFT) for predicting social users' semantic locations. First, we utilize a pre-trained large-scale vision-language model to extract high-quality feature representations from social media posts. Then, we introduce a Similarity-Guided Interaction Module (SIM) to alleviate modality heterogeneity and noise interference by incorporating coarse-grained and fine-grained similarity guidance for modality interactions. Specifically, we propose a novel similarity-aware feature interpolation attention mechanism at the coarse level, leveraging modality-wise similarity to mitigate heterogeneity and reduce noise within each modality. Meanwhile, we employ a similarity-aware feed-forward block at the fine level, utilizing element-wise similarity to further mitigate the impact of modality heterogeneity. Building upon pre-processed features with minimal noise and modal interference, we propose a Similarity-aware Feature Fusion Module (SFM) to fuse two modalities with cross-attention mechanism. Comprehensive experimental results demonstrate the superior performance of our proposed method in handling modality imbalance while maintaining efficient fusion effectiveness.
- Abstract(参考訳): セマンティックな位置予測の目的は、マルチモーダルなソーシャルメディア投稿から関連するセマンティックな位置情報を抽出することであり、GPS座標と比較して日常の行動をより文脈的に理解することである。
しかし、この課題は「テキストイメージ」のペアにノイズや無関係な情報が存在するために困難になる。
既存の手法では特徴表現が不十分であり、様々な粒度の類似性の包括的統合を考慮できないため、ノイズや無関係な情報のフィルタリングが困難である。
これらの課題に対処するために,ソーシャルユーザのセマンティックな位置を予測するためのSG-MFT(Simisity-Guided Multimodal Fusion Transformer)を提案する。
まず,事前学習した大規模視覚言語モデルを用いて,ソーシャルメディア投稿から高品質な特徴表現を抽出する。
そこで我々は, 粗粒度, 微粒度の相似性誘導を組み込むことにより, モダリティの不均一性とノイズ干渉を緩和するSimisity-Guided Interaction Module (SIM)を導入する。
具体的には、不均一性を緩和し、各モーダル内のノイズを低減するために、モーダルワイドな類似性を生かし、粗いレベルにおける特徴補間注意機構を提案する。
一方、我々は、相似性を考慮したフィードフォワードブロックを微細なレベルで採用し、要素的類似性を利用して、相似性の不均一性の影響をさらに緩和する。
最小限のノイズとモーダル干渉を伴う事前処理機能に基づいて,2つのモーダルをクロスアテンション機構で融合させる類似性認識機能融合モジュール (SFM) を提案する。
総合的な実験結果から,効率的な核融合効率を維持しつつ,モダリティの不均衡処理における提案手法の優れた性能を示す。
関連論文リスト
- Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - RNG: Reducing Multi-level Noise and Multi-grained Semantic Gap for Joint Multimodal Aspect-Sentiment Analysis [27.545702415272125]
JMASA(Joint Multimodal Aspect-Sentiment Analysis)のための新しいフレームワークRNGを提案する。
具体的には、マルチレベルなモーダリティノイズとマルチレベルなセマンティックギャップを減らすために、3つの制約を設計する。
2つのデータセットの実験は、新しい最先端のパフォーマンスを検証する。
論文 参考訳(メタデータ) (2024-05-20T12:18:46Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Dynamic Weighted Combiner for Mixed-Modal Image Retrieval [8.683144453481328]
フレキシブル検索パラダイムとしてのMixed-Modal Image Retrieval (MMIR) が注目されている。
以前のアプローチは常に2つの重要な要因のため、限られたパフォーマンスを達成する。
以上の課題に対処するための動的重み付け結合器(DWC)を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:36:45Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - MIR-GAN: Refining Frame-Level Modality-Invariant Representations with
Adversarial Network for Audio-Visual Speech Recognition [23.042478625584653]
フレームレベルのモダリティ不変表現(MIR-GAN)を洗練するための逆ネットワークを提案する。
特に,フレームレベルのモダリティ不変表現(MIR-GAN)を洗練するための逆ネットワークを提案する。
論文 参考訳(メタデータ) (2023-06-18T14:02:20Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z) - A Novel Self-Supervised Cross-Modal Image Retrieval Method In Remote
Sensing [0.0]
クロスモーダルRS画像検索手法は、異なるモーダルにわたって意味論的に類似した画像を検索する。
既存のCM-RSIR法では、注釈付きトレーニング画像が必要であり、モーダル内およびモーダル間類似性保存とモーダル間差分除去を同時に処理しない。
本稿では,異なるモダリティ間の相互情報を自己教師型でモデル化することを目的とした,新たな自己教師型クロスモーダル画像検索手法を提案する。
論文 参考訳(メタデータ) (2022-02-23T11:20:24Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。