論文の概要: Point-of-Interest Type Prediction using Text and Images
- arxiv url: http://arxiv.org/abs/2109.00602v1
- Date: Wed, 1 Sep 2021 20:25:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-04 05:53:41.546289
- Title: Point-of-Interest Type Prediction using Text and Images
- Title(参考訳): テキストと画像を用いた視点型予測
- Authors: Danae S\'anchez Villegas, Nikolaos Aletras
- Abstract要約: Point-of-interest(POI)タイプ予測は、ソーシャルメディア投稿が共有された場所から場所のタイプを推測するタスクである。
本稿では,ポスト時に利用可能なテキストや画像からのマルチモーダル情報を用いたPOI型予測手法を提案する。
- 参考スコア(独自算出の注目度): 11.051364302540765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Point-of-interest (POI) type prediction is the task of inferring the type of
a place from where a social media post was shared. Inferring a POI's type is
useful for studies in computational social science including sociolinguistics,
geosemiotics, and cultural geography, and has applications in geosocial
networking technologies such as recommendation and visualization systems. Prior
efforts in POI type prediction focus solely on text, without taking visual
information into account. However in reality, the variety of modalities, as
well as their semiotic relationships with one another, shape communication and
interactions in social media. This paper presents a study on POI type
prediction using multimodal information from text and images available at
posting time. For that purpose, we enrich a currently available data set for
POI type prediction with the images that accompany the text messages. Our
proposed method extracts relevant information from each modality to effectively
capture interactions between text and image achieving a macro F1 of 47.21
across eight categories significantly outperforming the state-of-the-art method
for POI type prediction based on text-only methods. Finally, we provide a
detailed analysis to shed light on cross-modal interactions and the limitations
of our best performing model.
- Abstract(参考訳): Point-of-interest(POI)タイプ予測は、ソーシャルメディア投稿が共有された場所から場所のタイプを推測するタスクである。
POIの型を推定することは、社会言語学、地理学、文化地理学を含む計算社会科学の研究に有用であり、レコメンデーションやビジュアライゼーションシステムなどの地理ネットワーク技術にも応用できる。
POI型予測の以前の取り組みは、視覚情報を考慮に入れずに、テキストのみに焦点を当てていた。
しかし、実際には、様々なモダリティ、およびそれらの相互のセミオティックな関係は、ソーシャルメディアにおけるコミュニケーションと対話を形作る。
本稿では,ポスト時に利用可能なテキストや画像からのマルチモーダル情報を用いたPOI型予測手法を提案する。
そこで我々は,テキストメッセージに付随する画像を用いて,poi型予測のための現在利用可能なデータセットを拡張した。
提案手法は,テキストのみの手法に基づくPOI型予測の最先端手法よりも,8つのカテゴリで47.21のマクロF1を実現するために,テキストと画像間の相互作用を効果的に捉えるために,各モードから関連情報を抽出する。
最後に,クロスモーダルインタラクションと最高のパフォーマンスモデルの限界について,詳細な分析を行う。
関連論文リスト
- AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - Computational Politeness in Natural Language Processing: A Survey [29.082198141367574]
丁寧さに対する計算的アプローチは、テキストの丁寧さを自動的に予測し、生成するタスクである。
本稿は、自然言語処理における計算の丁寧さに関する過去の研究のまとめである。
論文 参考訳(メタデータ) (2024-06-28T06:46:36Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Text-based Person Search in Full Images via Semantic-Driven Proposal
Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。
クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文 参考訳(メタデータ) (2021-09-27T11:42:40Z) - Enhancing Social Relation Inference with Concise Interaction Graph and
Discriminative Scene Representation [56.25878966006678]
我々はtextbfSocial rtextbfElation (PRISE) における textbfPractical textbfInference のアプローチを提案する。
人の対話的特徴と全体主義的な場面の識別的特徴を簡潔に学習する。
PRISEはPIPAデータセットにおけるドメイン分類の改善を6.8$%で達成している。
論文 参考訳(メタデータ) (2021-07-30T04:20:13Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z) - CommuNety: A Deep Learning System for the Prediction of Cohesive Social
Communities [14.839117147209603]
画像を用いた結束型ソーシャルネットワーク予測のための深層学習システムCommuNetyを提案する。
提案したディープラーニングモデルは階層型CNNアーキテクチャで構成され,各結合ネットワークに関連する記述的特徴を学習する。
また、画像中の人物の存在を定量化するための新しい顔共起周波数アルゴリズムと、予測されたソーシャルネットワークにおける個人間の関係の強さを分析する新しい写真ランキング手法を提案する。
論文 参考訳(メタデータ) (2020-07-29T11:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。