論文の概要: Multi-modal Representation Learning for Social Post Location Inference
- arxiv url: http://arxiv.org/abs/2306.07935v1
- Date: Sun, 11 Jun 2023 02:35:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 12:36:08.995116
- Title: Multi-modal Representation Learning for Social Post Location Inference
- Title(参考訳): ソーシャルポストロケーション推論のためのマルチモーダル表現学習
- Authors: Ruiting Dai, Jiayi Luo, Xucheng Luo, Lisi Mo, Wanlun Ma, Fan Zhou
- Abstract要約: 本研究では,位置推定のためのソーシャルポストの異なるモダリティを融合可能な,新しいマルチモーダル表現学習フレームワーク(MRLF)を提案する。
ノイズの多いユーザ生成テキストのコンテンツを克服するために,新しいアテンションベースの文字認識モジュールを提案する。
実験の結果,MRLFは正確な位置予測を行い,オンライン推論タスクにおけるソーシャルポストのマルチモーダルデータを理解するための新たな扉を開くことができることがわかった。
- 参考スコア(独自算出の注目度): 7.911777986696313
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Inferring geographic locations via social posts is essential for many
practical location-based applications such as product marketing,
point-of-interest recommendation, and infector tracking for COVID-19. Unlike
image-based location retrieval or social-post text embedding-based location
inference, the combined effect of multi-modal information (i.e., post images,
text, and hashtags) for social post positioning receives less attention. In
this work, we collect real datasets of social posts with images, texts, and
hashtags from Instagram and propose a novel Multi-modal Representation Learning
Framework (MRLF) capable of fusing different modalities of social posts for
location inference. MRLF integrates a multi-head attention mechanism to enhance
location-salient information extraction while significantly improving location
inference compared with single domain-based methods. To overcome the noisy
user-generated textual content, we introduce a novel attention-based
character-aware module that considers the relative dependencies between
characters of social post texts and hashtags for flexible multi-model
information fusion. The experimental results show that MRLF can make accurate
location predictions and open a new door to understanding the multi-modal data
of social posts for online inference tasks.
- Abstract(参考訳): ソーシャルポストを介して地理的位置を推定することは、製品マーケティング、ポイント・オブ・エコメンデーション、感染者追跡など、多くの実用的な位置情報ベースのアプリケーションにとって不可欠である。
画像に基づく位置検索やソーシャルポストテキストの埋め込みに基づく位置推定とは異なり、ソーシャルポストの位置決めに対するマルチモーダル情報(ポスト画像、テキスト、ハッシュタグ)の併用効果は、あまり注目されない。
本研究では,Instagramから画像,テキスト,ハッシュタグを用いたソーシャルポストの実際のデータセットを収集し,位置推定のためのソーシャルポストのさまざまなモダリティを融合させる新しいマルチモーダル表現学習フレームワーク(MRLF)を提案する。
MRLFはマルチヘッドアテンション機構を統合し、位置情報の抽出を強化し、単一のドメインベースの手法と比較して位置推測を大幅に改善する。
そこで本稿では,ソーシャルポストテキストの文字とハッシュタグの相対的依存関係を考慮し,マルチモデル情報融合を柔軟に行う新しい注目型文字認識モジュールを提案する。
実験の結果,MRLFは正確な位置予測を行い,オンライン推論タスクにおけるソーシャルポストのマルチモーダルデータを理解するための扉を開くことができた。
関連論文リスト
- MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics [41.94295877935867]
マルチカメラのセットアップを活用し,マルチモーダル位置認識のための多様なデータソースを統合することの影響について検討する。
提案手法は,複数のカメラ,LiDAR点雲,セマンティックセグメンテーションマスク,テキストアノテーションなどの画像を用いて,総合的な位置記述子を生成する。
論文 参考訳(メタデータ) (2024-07-22T14:24:56Z) - AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - SoMeR: Multi-View User Representation Learning for Social Media [1.7949335303516192]
本稿では,ソーシャルメディアのユーザ表現学習フレームワークであるSoMeRを提案する。
SoMeRは、ユーザ投稿ストリームをタイムスタンプ付きテキスト機能のシーケンスとしてエンコードし、トランスフォーマーを使用してプロファイルデータと共にそれを埋め込み、リンク予測とコントラスト学習の目標を共同でトレーニングする。
1)類似コンテンツを同時に投稿するユーザを検出することによって、協調的な影響操作に関わる不正確なアカウントを同定し、2)異なる信念を持つユーザがより遠くへ移動する様子を定量化して、主要なイベント後のオンライン議論における偏光の増大を測定する。
論文 参考訳(メタデータ) (2024-05-02T22:26:55Z) - Multi-modal Stance Detection: New Datasets and Model [56.97470987479277]
テキストと画像からなるツイートに対するマルチモーダル姿勢検出について検討する。
我々は、シンプルで効果的なマルチモーダル・プロンプト・チューニング・フレームワーク(TMPT)を提案する。
TMPTはマルチモーダル姿勢検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-22T05:24:19Z) - Improving Social Media Popularity Prediction with Multiple Post
Dependencies [33.517898847695136]
本稿では,DSN(Dependency-Aware Sequence Network)という新しい予測フレームワークを提案する。
DSNは、画像や投稿のテキスト情報からタスク固有の表現を得るために、効率的な微調整戦略を備えたマルチモーダル特徴抽出器を採用する。
ポスト間の依存性のために、DSNは階層的な情報伝達法を使用してカテゴリ表現を学習し、ポスト間の差異をよりよく記述する。
論文 参考訳(メタデータ) (2023-07-28T09:06:50Z) - A Transformer-based Framework for POI-level Social Post Geolocation [4.027087283290081]
本稿では,事前学習された言語モデルに基づいて,非テキストデータを考慮したトランスフォーマーベース汎用フレームワークを提案する。
提案するフレームワークの3つの変種は,精度と距離誤差の指標において,複数の最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2022-10-26T10:30:51Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video
Retrieval [66.2075707179047]
そこで本研究では,テキストと動画を3段階に切り離した,新しい混在型トランスフォーマーRoMEを提案する。
我々はトランスフォーマーに基づくアテンション機構を用いて、グローバルレベルとローカルレベルの両方で視覚とテキストの埋め込みを完全に活用する。
提案手法は,YouCook2 および MSR-VTT データセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-26T11:12:49Z) - FiLMing Multimodal Sarcasm Detection with Attention [0.7340017786387767]
サルカスムの検出は、意図された意味がその表面的な意味によって示されるものと異なる自然言語表現を特定する。
本稿では,入力テキストと画像属性のコンテキスト不整合を組み込むために,RoBERTaモデルとコアテンション層を用いた新しいアーキテクチャを提案する。
提案手法は,Twitterのマルチモーダル検出データセットの6.14%のF1スコアにおいて,既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-09T06:33:29Z) - Enhancing Social Relation Inference with Concise Interaction Graph and
Discriminative Scene Representation [56.25878966006678]
我々はtextbfSocial rtextbfElation (PRISE) における textbfPractical textbfInference のアプローチを提案する。
人の対話的特徴と全体主義的な場面の識別的特徴を簡潔に学習する。
PRISEはPIPAデータセットにおけるドメイン分類の改善を6.8$%で達成している。
論文 参考訳(メタデータ) (2021-07-30T04:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。