論文の概要: Multi-modal Representation Learning for Social Post Location Inference
- arxiv url: http://arxiv.org/abs/2306.07935v1
- Date: Sun, 11 Jun 2023 02:35:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 12:36:08.995116
- Title: Multi-modal Representation Learning for Social Post Location Inference
- Title(参考訳): ソーシャルポストロケーション推論のためのマルチモーダル表現学習
- Authors: Ruiting Dai, Jiayi Luo, Xucheng Luo, Lisi Mo, Wanlun Ma, Fan Zhou
- Abstract要約: 本研究では,位置推定のためのソーシャルポストの異なるモダリティを融合可能な,新しいマルチモーダル表現学習フレームワーク(MRLF)を提案する。
ノイズの多いユーザ生成テキストのコンテンツを克服するために,新しいアテンションベースの文字認識モジュールを提案する。
実験の結果,MRLFは正確な位置予測を行い,オンライン推論タスクにおけるソーシャルポストのマルチモーダルデータを理解するための新たな扉を開くことができることがわかった。
- 参考スコア(独自算出の注目度): 7.911777986696313
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Inferring geographic locations via social posts is essential for many
practical location-based applications such as product marketing,
point-of-interest recommendation, and infector tracking for COVID-19. Unlike
image-based location retrieval or social-post text embedding-based location
inference, the combined effect of multi-modal information (i.e., post images,
text, and hashtags) for social post positioning receives less attention. In
this work, we collect real datasets of social posts with images, texts, and
hashtags from Instagram and propose a novel Multi-modal Representation Learning
Framework (MRLF) capable of fusing different modalities of social posts for
location inference. MRLF integrates a multi-head attention mechanism to enhance
location-salient information extraction while significantly improving location
inference compared with single domain-based methods. To overcome the noisy
user-generated textual content, we introduce a novel attention-based
character-aware module that considers the relative dependencies between
characters of social post texts and hashtags for flexible multi-model
information fusion. The experimental results show that MRLF can make accurate
location predictions and open a new door to understanding the multi-modal data
of social posts for online inference tasks.
- Abstract(参考訳): ソーシャルポストを介して地理的位置を推定することは、製品マーケティング、ポイント・オブ・エコメンデーション、感染者追跡など、多くの実用的な位置情報ベースのアプリケーションにとって不可欠である。
画像に基づく位置検索やソーシャルポストテキストの埋め込みに基づく位置推定とは異なり、ソーシャルポストの位置決めに対するマルチモーダル情報(ポスト画像、テキスト、ハッシュタグ)の併用効果は、あまり注目されない。
本研究では,Instagramから画像,テキスト,ハッシュタグを用いたソーシャルポストの実際のデータセットを収集し,位置推定のためのソーシャルポストのさまざまなモダリティを融合させる新しいマルチモーダル表現学習フレームワーク(MRLF)を提案する。
MRLFはマルチヘッドアテンション機構を統合し、位置情報の抽出を強化し、単一のドメインベースの手法と比較して位置推測を大幅に改善する。
そこで本稿では,ソーシャルポストテキストの文字とハッシュタグの相対的依存関係を考慮し,マルチモデル情報融合を柔軟に行う新しい注目型文字認識モジュールを提案する。
実験の結果,MRLFは正確な位置予測を行い,オンライン推論タスクにおけるソーシャルポストのマルチモーダルデータを理解するための扉を開くことができた。
関連論文リスト
- Multi-modal Stance Detection: New Datasets and Model [59.428622374682234]
テキストと画像からなるツイートに対するマルチモーダル姿勢検出について検討する。
我々は、シンプルで効果的なマルチモーダル・プロンプト・チューニング・フレームワーク(TMPT)を提案する。
TMPTはマルチモーダル姿勢検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-22T05:24:19Z) - Improving Social Media Popularity Prediction with Multiple Post
Dependencies [33.517898847695136]
本稿では,DSN(Dependency-Aware Sequence Network)という新しい予測フレームワークを提案する。
DSNは、画像や投稿のテキスト情報からタスク固有の表現を得るために、効率的な微調整戦略を備えたマルチモーダル特徴抽出器を採用する。
ポスト間の依存性のために、DSNは階層的な情報伝達法を使用してカテゴリ表現を学習し、ポスト間の差異をよりよく記述する。
論文 参考訳(メタデータ) (2023-07-28T09:06:50Z) - Multi-Temporal Relationship Inference in Urban Areas [75.86026742632528]
場所間の時間的関係を見つけることは、動的なオフライン広告やスマートな公共交通計画など、多くの都市アプリケーションに役立つ。
空間的に進化するグラフニューラルネットワーク(SEENet)を含むグラフ学習方式によるTrialの解を提案する。
SEConvは時間内アグリゲーションと時間間伝搬を実行し、位置メッセージパッシングの観点から、多面的に空間的に進化するコンテキストをキャプチャする。
SE-SSLは、位置表現学習を強化し、関係の空間性をさらに扱えるように、グローバルな方法でタイムアウェアな自己教師型学習タスクを設計する。
論文 参考訳(メタデータ) (2023-06-15T07:48:32Z) - A Transformer-based Framework for POI-level Social Post Geolocation [4.027087283290081]
本稿では,事前学習された言語モデルに基づいて,非テキストデータを考慮したトランスフォーマーベース汎用フレームワークを提案する。
提案するフレームワークの3つの変種は,精度と距離誤差の指標において,複数の最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2022-10-26T10:30:51Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video
Retrieval [66.2075707179047]
そこで本研究では,テキストと動画を3段階に切り離した,新しい混在型トランスフォーマーRoMEを提案する。
我々はトランスフォーマーに基づくアテンション機構を用いて、グローバルレベルとローカルレベルの両方で視覚とテキストの埋め込みを完全に活用する。
提案手法は,YouCook2 および MSR-VTT データセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-26T11:12:49Z) - FiLMing Multimodal Sarcasm Detection with Attention [0.7340017786387767]
サルカスムの検出は、意図された意味がその表面的な意味によって示されるものと異なる自然言語表現を特定する。
本稿では,入力テキストと画像属性のコンテキスト不整合を組み込むために,RoBERTaモデルとコアテンション層を用いた新しいアーキテクチャを提案する。
提案手法は,Twitterのマルチモーダル検出データセットの6.14%のF1スコアにおいて,既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-09T06:33:29Z) - Enhancing Social Relation Inference with Concise Interaction Graph and
Discriminative Scene Representation [56.25878966006678]
我々はtextbfSocial rtextbfElation (PRISE) における textbfPractical textbfInference のアプローチを提案する。
人の対話的特徴と全体主義的な場面の識別的特徴を簡潔に学習する。
PRISEはPIPAデータセットにおけるドメイン分類の改善を6.8$%で達成している。
論文 参考訳(メタデータ) (2021-07-30T04:20:13Z) - Learning Neighborhood Representation from Multi-Modal Multi-Graph:
Image, Text, Mobility Graph and Beyond [20.014906526266795]
本稿では,マルチモーダルジオタグ入力をノードまたはエッジの特徴として統合する新しい手法を提案する。
具体的には、ストリートビュー画像とpoi特徴を用いて、近傍(ノード)を特徴付け、人間移動を用いて近隣(方向エッジ)間の関係を特徴付ける。
トレーニングした埋め込みは、ユニモーダルデータのみを地域入力として使用するものよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T07:44:05Z) - Multimodal Analytics for Real-world News using Measures of Cross-modal
Entity Consistency [8.401772200450417]
例えば、写真でテキストを豊かにするといったマルチモーダル情報は、ニュースをより効果的に伝達したり、注意を引くために使われる。
本稿では,実世界のニュースにおける相互整合性検証の新たな課題を紹介し,画像とテキスト間の実体的一貫性を定量化するためのマルチモーダルアプローチを提案する。
論文 参考訳(メタデータ) (2020-03-23T17:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。