Fugu-MT 論文翻訳(概要): Similarity Guided Multimodal Fusion Transformer for Semantic Location Prediction in Social Media

論文の概要: Similarity Guided Multimodal Fusion Transformer for Semantic Location Prediction in Social Media

arxiv url: http://arxiv.org/abs/2405.05760v2
Date: Sun, 23 Jun 2024 10:05:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-26 00:53:00.480477
Title: Similarity Guided Multimodal Fusion Transformer for Semantic Location Prediction in Social Media
Title（参考訳）: ソーシャルメディアにおける意味的位置予測のための類似性指導型マルチモーダル核融合変換器
Authors: Zhizhen Zhang, Ning Wang, Haojie Li, Zhihui Wang,
Abstract要約: マルチモーダル投稿からユーザのセマンティックな位置を予測するためのSG-MFT(Simisity-Guided Fusion Transformer)を提案する。まず,事前学習した大規模視覚言語モデルを用いて,高品質なテキストと画像表現を組み込む。そこで我々は, 異質性やノイズ干渉を緩和するSimisity-Guided Interaction Module (SIM) を考案した。
参考スコア（独自算出の注目度）: 34.664388374279596
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Semantic location prediction aims to derive meaningful location insights from multimodal social media posts, offering a more contextual understanding of daily activities than using GPS coordinates. This task faces significant challenges due to the noise and modality heterogeneity in "text-image" posts. Existing methods are generally constrained by inadequate feature representations and modal interaction, struggling to effectively reduce noise and modality heterogeneity. To address these challenges, we propose a Similarity-Guided Multimodal Fusion Transformer (SG-MFT) for predicting the semantic locations of users from their multimodal posts. First, we incorporate high-quality text and image representations by utilizing a pre-trained large vision-language model. Then, we devise a Similarity-Guided Interaction Module (SIM) to alleviate modality heterogeneity and noise interference by incorporating both coarse-grained and fine-grained similarity guidance for improving modality interactions. Specifically, we propose a novel similarity-aware feature interpolation attention mechanism at the coarse-grained level, leveraging modality-wise similarity to mitigate heterogeneity and reduce noise within each modality. At the fine-grained level, we utilize a similarity-aware feed-forward block and element-wise similarity to further address the issue of modality heterogeneity. Finally, building upon pre-processed features with minimal noise and modal interference, we devise a Similarity-aware Fusion Module (SFM) to fuse two modalities with a cross-attention mechanism. Comprehensive experimental results clearly demonstrate the superior performance of our proposed method.
Abstract（参考訳）: セマンティックな位置予測は、GPS座標を使用するよりも日常的な活動をより文脈的に理解することを目的として、マルチモーダルなソーシャルメディア投稿から意味のある位置情報を導き出すことを目的としている。このタスクは、"text-image"ポストのノイズとモダリティの不均一性のために、重大な課題に直面している。既存の手法は一般に、不適切な特徴表現とモーダル相互作用によって制約され、ノイズやモダリティの不均一性を効果的に減少させるのに苦労する。これらの課題に対処するため,マルチモーダル投稿からユーザのセマンティックな位置を予測するためのSG-MFT(Simisity-Guided Multimodal Fusion Transformer)を提案する。まず,事前学習した大規模視覚言語モデルを用いて,高品質なテキストと画像表現を組み込む。そこで我々は、粗粒度と細粒度の両方の類似性ガイダンスを組み込むことにより、モダリティの不均一性とノイズ干渉を緩和するSimisity-Guided Interaction Module (SIM)を考案した。具体的には、不均一性を緩和し、各モードにおけるノイズを低減するために、モーダルワイドな類似性を生かした、粗粒度における特徴補間注意機構を提案する。細粒度レベルでは、類似性を考慮したフィードフォワードブロックと要素単位の類似性を利用して、モダリティの不均一性の問題に対処する。最後に、最小限のノイズとモーダル干渉を伴う事前処理機能に基づいて、2つのモーダルをクロスアテンション機構で融合させる類似性認識融合モジュール(SFM)を考案する。総合的な実験結果から,提案手法の優れた性能が明らかとなった。

関連論文リスト

CLAMP: Contrastive Learning with Adaptive Multi-loss and Progressive Fusion for Multimodal Aspect-Based Sentiment Analysis [0.6961946145048322]
本稿では,Adaptive Multi-lossとProgressive Attention Fusionを用いた,エンドツーエンドのコントラスト学習フレームワークを提案する。このフレームワークは、Progressive Attention Fusion Network、Multi-task Contrastive Learning、Adaptive Multi-loss Aggregationの3つの新しいモジュールで構成されている。標準の公開ベンチマークによる評価は、CLAMPが既存の最先端技術よりも一貫して優れていることを示している。
論文参考訳（メタデータ） (2025-07-21T11:49:57Z)
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。 Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。 Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文参考訳（メタデータ） (2025-03-25T15:19:56Z)
DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning [7.947217265041953]
マルチモーダル表現学習は、複数のモーダルをまたいだ共有情報と相補的セマンティック情報の両方をキャプチャすることを目的としている。マルチモーダル表現をモダリティ・ユニク(異種)とモダリティ・コモン(異種)に分離するために設計された,新しい階層的クロスモーダルアライメントフレームワークであるDecAlignを紹介する。広く使われている4つのマルチモーダルベンチマーク実験により、DecAlignは既存の最先端手法を一貫して上回っていることが示された。
論文参考訳（メタデータ） (2025-03-14T21:47:48Z)
Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文参考訳（メタデータ） (2024-07-06T04:36:48Z)
RNG: Reducing Multi-level Noise and Multi-grained Semantic Gap for Joint Multimodal Aspect-Sentiment Analysis [27.545702415272125]
JMASA(Joint Multimodal Aspect-Sentiment Analysis)のための新しいフレームワークRNGを提案する。具体的には、マルチレベルなモーダリティノイズとマルチレベルなセマンティックギャップを減らすために、3つの制約を設計する。 2つのデータセットの実験は、新しい最先端のパフォーマンスを検証する。
論文参考訳（メタデータ） (2024-05-20T12:18:46Z)
Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文参考訳（メタデータ） (2024-05-15T00:17:48Z)
Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。 AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文参考訳（メタデータ） (2024-05-06T11:02:02Z)
Dynamic Weighted Combiner for Mixed-Modal Image Retrieval [8.683144453481328]
フレキシブル検索パラダイムとしてのMixed-Modal Image Retrieval (MMIR) が注目されている。以前のアプローチは常に2つの重要な要因のため、限られたパフォーマンスを達成する。以上の課題に対処するための動的重み付け結合器(DWC)を提案する。
論文参考訳（メタデータ） (2023-12-11T07:36:45Z)
Unified Frequency-Assisted Transformer Framework for Detecting and Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文参考訳（メタデータ） (2023-09-18T11:06:42Z)
MIR-GAN: Refining Frame-Level Modality-Invariant Representations with Adversarial Network for Audio-Visual Speech Recognition [23.042478625584653]
フレームレベルのモダリティ不変表現(MIR-GAN)を洗練するための逆ネットワークを提案する。特に,フレームレベルのモダリティ不変表現(MIR-GAN)を洗練するための逆ネットワークを提案する。
論文参考訳（メタデータ） (2023-06-18T14:02:20Z)
Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文参考訳（メタデータ） (2023-05-17T14:30:11Z)
High-Modality Multimodal Transformer: Quantifying Modality & Interaction Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文参考訳（メタデータ） (2022-03-02T18:56:20Z)
A Novel Self-Supervised Cross-Modal Image Retrieval Method In Remote Sensing [0.0]
クロスモーダルRS画像検索手法は、異なるモーダルにわたって意味論的に類似した画像を検索する。既存のCM-RSIR法では、注釈付きトレーニング画像が必要であり、モーダル内およびモーダル間類似性保存とモーダル間差分除去を同時に処理しない。本稿では,異なるモダリティ間の相互情報を自己教師型でモデル化することを目的とした,新たな自己教師型クロスモーダル画像検索手法を提案する。
論文参考訳（メタデータ） (2022-02-23T11:20:24Z)
Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文参考訳（メタデータ） (2021-07-28T23:33:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。