Fugu-MT 論文翻訳(概要): Multi-modal Representation Learning for Social Post Location Inference

論文の概要: Multi-modal Representation Learning for Social Post Location Inference

arxiv url: http://arxiv.org/abs/2306.07935v1
Date: Sun, 11 Jun 2023 02:35:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-14 12:36:08.995116
Title: Multi-modal Representation Learning for Social Post Location Inference
Title（参考訳）: ソーシャルポストロケーション推論のためのマルチモーダル表現学習
Authors: Ruiting Dai, Jiayi Luo, Xucheng Luo, Lisi Mo, Wanlun Ma, Fan Zhou
Abstract要約: 本研究では,位置推定のためのソーシャルポストの異なるモダリティを融合可能な,新しいマルチモーダル表現学習フレームワーク(MRLF)を提案する。ノイズの多いユーザ生成テキストのコンテンツを克服するために,新しいアテンションベースの文字認識モジュールを提案する。実験の結果,MRLFは正確な位置予測を行い,オンライン推論タスクにおけるソーシャルポストのマルチモーダルデータを理解するための新たな扉を開くことができることがわかった。
参考スコア（独自算出の注目度）: 7.911777986696313
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Inferring geographic locations via social posts is essential for many practical location-based applications such as product marketing, point-of-interest recommendation, and infector tracking for COVID-19. Unlike image-based location retrieval or social-post text embedding-based location inference, the combined effect of multi-modal information (i.e., post images, text, and hashtags) for social post positioning receives less attention. In this work, we collect real datasets of social posts with images, texts, and hashtags from Instagram and propose a novel Multi-modal Representation Learning Framework (MRLF) capable of fusing different modalities of social posts for location inference. MRLF integrates a multi-head attention mechanism to enhance location-salient information extraction while significantly improving location inference compared with single domain-based methods. To overcome the noisy user-generated textual content, we introduce a novel attention-based character-aware module that considers the relative dependencies between characters of social post texts and hashtags for flexible multi-model information fusion. The experimental results show that MRLF can make accurate location predictions and open a new door to understanding the multi-modal data of social posts for online inference tasks.
Abstract（参考訳）: ソーシャルポストを介して地理的位置を推定することは、製品マーケティング、ポイント・オブ・エコメンデーション、感染者追跡など、多くの実用的な位置情報ベースのアプリケーションにとって不可欠である。画像に基づく位置検索やソーシャルポストテキストの埋め込みに基づく位置推定とは異なり、ソーシャルポストの位置決めに対するマルチモーダル情報(ポスト画像、テキスト、ハッシュタグ)の併用効果は、あまり注目されない。本研究では,Instagramから画像,テキスト,ハッシュタグを用いたソーシャルポストの実際のデータセットを収集し,位置推定のためのソーシャルポストのさまざまなモダリティを融合させる新しいマルチモーダル表現学習フレームワーク(MRLF)を提案する。 MRLFはマルチヘッドアテンション機構を統合し、位置情報の抽出を強化し、単一のドメインベースの手法と比較して位置推測を大幅に改善する。そこで本稿では,ソーシャルポストテキストの文字とハッシュタグの相対的依存関係を考慮し,マルチモデル情報融合を柔軟に行う新しい注目型文字認識モジュールを提案する。実験の結果,MRLFは正確な位置予測を行い,オンライン推論タスクにおけるソーシャルポストのマルチモーダルデータを理解するための扉を開くことができた。

関連論文リスト

Adaptive Graph Convolution and Semantic-Guided Attention for Multimodal Risk Detection in Social Networks [1.1637069058198866]
本稿では,革新的なマルチモーダル方式でソーシャルメディア利用者の潜在的危険度を検出することに焦点を当てる。自然言語処理(NLP)とグラフニューラルネットワーク(GNN)を統合した。異なるプラットフォームからの実際のソーシャルメディアデータセットに対する実験は、我々のモデルが単一モダリティ法よりも大幅に改善できることを示します。
論文参考訳（メタデータ） (2025-09-21T06:03:18Z)
MINGLE: VLMs for Semantically Complex Region Detection in Urban Scenes [49.89767522399176]
公共空間におけるグループレベルの社会的相互作用は都市計画に不可欠である。対人関係によって定義された視覚領域の推測と空間的接地を必要とする社会集団領域検出タスクを導入する。本稿では,人間検出と深度推定を統合したモジュール型3段階パイプラインであるMINGLEと,ソーシャルアフィリエイトを相互に分類するVLMベースの推論と,ソーシャルに連結したグループを局所化する軽量な空間アグリゲーションアルゴリズムを提案する。そこで本稿では,個人と社会的に相互作用するグループの両方に対して,境界ボックスとラベルを付加した100万の街路ビュー画像のデータセットを提案する。
論文参考訳（メタデータ） (2025-09-16T19:31:40Z)
TriMod Fusion for Multimodal Named Entity Recognition in Social Media [0.0]
本稿では, テキスト, ビジュアル, ハッシュタグ機能(TriMod)を統合した新しい手法を提案する。我々は,既存の最先端手法よりもアプローチの優位性を実証し,精度,リコール,F1スコアの大幅な向上を実現した。
論文参考訳（メタデータ） (2025-01-14T17:29:41Z)
MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics [41.94295877935867]
マルチカメラのセットアップを活用し,マルチモーダル位置認識のための多様なデータソースを統合することの影響について検討する。提案手法は,複数のカメラ,LiDAR点雲,セマンティックセグメンテーションマスク,テキストアノテーションなどの画像を用いて,総合的な位置記述子を生成する。
論文参考訳（メタデータ） (2024-07-22T14:24:56Z)
AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文参考訳（メタデータ） (2024-07-11T03:18:53Z)
SoMeR: Multi-View User Representation Learning for Social Media [1.7949335303516192]
本稿では,ソーシャルメディアのユーザ表現学習フレームワークであるSoMeRを提案する。 SoMeRは、ユーザ投稿ストリームをタイムスタンプ付きテキスト機能のシーケンスとしてエンコードし、トランスフォーマーを使用してプロファイルデータと共にそれを埋め込み、リンク予測とコントラスト学習の目標を共同でトレーニングする。 1)類似コンテンツを同時に投稿するユーザを検出することによって、協調的な影響操作に関わる不正確なアカウントを同定し、2)異なる信念を持つユーザがより遠くへ移動する様子を定量化して、主要なイベント後のオンライン議論における偏光の増大を測定する。
論文参考訳（メタデータ） (2024-05-02T22:26:55Z)
Multi-modal Stance Detection: New Datasets and Model [56.97470987479277]
テキストと画像からなるツイートに対するマルチモーダル姿勢検出について検討する。我々は、シンプルで効果的なマルチモーダル・プロンプト・チューニング・フレームワーク(TMPT)を提案する。 TMPTはマルチモーダル姿勢検出における最先端性能を実現する。
論文参考訳（メタデータ） (2024-02-22T05:24:19Z)
Improving Social Media Popularity Prediction with Multiple Post Dependencies [33.517898847695136]
本稿では,DSN(Dependency-Aware Sequence Network)という新しい予測フレームワークを提案する。 DSNは、画像や投稿のテキスト情報からタスク固有の表現を得るために、効率的な微調整戦略を備えたマルチモーダル特徴抽出器を採用する。ポスト間の依存性のために、DSNは階層的な情報伝達法を使用してカテゴリ表現を学習し、ポスト間の差異をよりよく記述する。
論文参考訳（メタデータ） (2023-07-28T09:06:50Z)
A Transformer-based Framework for POI-level Social Post Geolocation [4.027087283290081]
本稿では,事前学習された言語モデルに基づいて,非テキストデータを考慮したトランスフォーマーベース汎用フレームワークを提案する。提案するフレームワークの3つの変種は,精度と距離誤差の指標において,複数の最先端のベースラインを上回っていることを示す。
論文参考訳（メタデータ） (2022-10-26T10:30:51Z)
CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。 TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文参考訳（メタデータ） (2022-10-19T03:43:12Z)
Image-Specific Information Suppression and Implicit Local Alignment for Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。 TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文参考訳（メタデータ） (2022-08-30T16:14:18Z)
RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video Retrieval [66.2075707179047]
そこで本研究では,テキストと動画を3段階に切り離した,新しい混在型トランスフォーマーRoMEを提案する。我々はトランスフォーマーに基づくアテンション機構を用いて、グローバルレベルとローカルレベルの両方で視覚とテキストの埋め込みを完全に活用する。提案手法は,YouCook2 および MSR-VTT データセットの最先端手法よりも優れている。
論文参考訳（メタデータ） (2022-06-26T11:12:49Z)
FiLMing Multimodal Sarcasm Detection with Attention [0.7340017786387767]
サルカスムの検出は、意図された意味がその表面的な意味によって示されるものと異なる自然言語表現を特定する。本稿では,入力テキストと画像属性のコンテキスト不整合を組み込むために,RoBERTaモデルとコアテンション層を用いた新しいアーキテクチャを提案する。提案手法は,Twitterのマルチモーダル検出データセットの6.14%のF1スコアにおいて,既存の最先端手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-08-09T06:33:29Z)
Enhancing Social Relation Inference with Concise Interaction Graph and Discriminative Scene Representation [56.25878966006678]
我々はtextbfSocial rtextbfElation (PRISE) における textbfPractical textbfInference のアプローチを提案する。人の対話的特徴と全体主義的な場面の識別的特徴を簡潔に学習する。 PRISEはPIPAデータセットにおけるドメイン分類の改善を6.8$%で達成している。
論文参考訳（メタデータ） (2021-07-30T04:20:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。