論文の概要: M3PT: A Multi-Modal Model for POI Tagging
- arxiv url: http://arxiv.org/abs/2306.10079v1
- Date: Fri, 16 Jun 2023 05:46:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 00:36:00.303163
- Title: M3PT: A Multi-Modal Model for POI Tagging
- Title(参考訳): M3PT:POIタグのマルチモードモデル
- Authors: Jingsong Yang, Guanzhou Han, Deqing Yang, Jingping Liu, Yanghua Xiao,
Xiang Xu, Baohua Wu, Shenghua Ni
- Abstract要約: 我々は,POIタグの強化を実現する新しいマルチモーダルモデル,すなわちM3PTを提案する。
まず、ドメイン適応型画像エンコーダ(DIE)を考案し、それらのゴールドタグのセマンティクスに整合した画像埋め込みを得る。
M3PTのテキストイメージ融合モジュール(TIF)では、テキストと視覚の表現は、後続のマッチングのためにPOIのコンテンツ埋め込みに完全に融合される。
- 参考スコア(独自算出の注目度): 18.585818094015465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: POI tagging aims to annotate a point of interest (POI) with some informative
tags, which facilitates many services related to POIs, including search,
recommendation, and so on. Most of the existing solutions neglect the
significance of POI images and seldom fuse the textual and visual features of
POIs, resulting in suboptimal tagging performance. In this paper, we propose a
novel Multi-Modal Model for POI Tagging, namely M3PT, which achieves enhanced
POI tagging through fusing the target POI's textual and visual features, and
the precise matching between the multi-modal representations. Specifically, we
first devise a domain-adaptive image encoder (DIE) to obtain the image
embeddings aligned to their gold tags' semantics. Then, in M3PT's text-image
fusion module (TIF), the textual and visual representations are fully fused
into the POIs' content embeddings for the subsequent matching. In addition, we
adopt a contrastive learning strategy to further bridge the gap between the
representations of different modalities. To evaluate the tagging models'
performance, we have constructed two high-quality POI tagging datasets from the
real-world business scenario of Ali Fliggy. Upon the datasets, we conducted the
extensive experiments to demonstrate our model's advantage over the baselines
of uni-modality and multi-modality, and verify the effectiveness of important
components in M3PT, including DIE, TIF and the contrastive learning strategy.
- Abstract(参考訳): POIタグ付けは、関心点(POI)にいくつかの情報タグを付加することを目的としており、検索やレコメンデーションなど、POIに関連する多くのサービスを促進する。
既存のソリューションの多くはPOI画像の重要性を無視しており、POIのテキスト的特徴と視覚的特徴を融合することはめったにない。
本稿では,目的のPOIのテキスト特徴と視覚的特徴を融合させることによりPOIタグの強化を実現する,POIタグのための新しいマルチモーダルモデル,すなわちM3PTを提案する。
具体的には、まずドメイン適応型画像エンコーダ(die)を考案し、ゴールドタグのセマンティクスに沿った画像埋め込みを得る。
そして、M3PTのテキストイメージ融合モジュール(TIF)において、テキストおよび視覚表現は、後続のマッチングのためにPOIのコンテンツ埋め込みに完全に融合される。
さらに、異なるモダリティの表現間のギャップをさらに橋渡しするために、対比学習戦略を採用する。
タギングモデルの性能を評価するために,我々はali fliggyの現実のビジネスシナリオから,高品質なpoiタギングデータセットを2つ構築した。
このデータセットを用いて,一様性および多様性に対するモデルの優位性を実証し,DIE,TIF,対照的な学習戦略を含むM3PTの重要な構成要素の有効性を検証する。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - POI-Enhancer: An LLM-based Semantic Enhancement Framework for POI Representation Learning [34.93661259065691]
近年の研究では、多モーダル情報によるPOI表現の充実がタスク性能を大幅に向上させることが示されている。
広範なテキストデータに基づいて訓練された大規模言語モデル (LLMs) は、リッチテキストの知識を持つことがわかった。
古典的なPOI学習モデルによって生成されたPOI表現を改善するために,LLMを利用するポータブルフレームワークであるPOI-Enhancerを提案する。
論文 参考訳(メタデータ) (2025-02-14T09:34:24Z) - Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - MVAM: Multi-View Attention Method for Fine-grained Image-Text Matching [65.87255122130188]
画像テキストマッチングのためのMVAM(Multi-view Attention Method)を提案する。
また、入力データの異なる側面に注目するよう注意を喚起する目的も取り入れている。
提案手法により,異なる視点から画像やテキストをエンコードし,より重要な詳細に焦点を合わせることが可能となり,マッチング性能が向上する。
論文 参考訳(メタデータ) (2024-02-27T06:11:54Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Dual-Gated Fusion with Prefix-Tuning for Multi-Modal Relation Extraction [13.454953507205278]
マルチモーダル関係抽出は、視覚的手がかりを含むテキスト中の2つの実体間の関係を特定することを目的としている。
本稿では,テキスト,エンティティペア,画像/オブジェクトのより深い相関関係をよりよく捉えるための新しいMMREフレームワークを提案する。
本手法は, 少数の状況においても, 強力な競合相手と比較して優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-06-19T15:31:34Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - Know Your Surroundings: Panoramic Multi-Object Tracking by Multimodality
Collaboration [56.01625477187448]
MMPAT(MultiModality PAnoramic Multi-object Tracking framework)を提案する。
2次元パノラマ画像と3次元点雲を入力とし、マルチモーダルデータを用いて目標軌道を推定する。
提案手法は,検出タスクと追跡タスクの両方においてMMPATが最高性能を達成するJRDBデータセット上で評価する。
論文 参考訳(メタデータ) (2021-05-31T03:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。