論文の概要: POI-Enhancer: An LLM-based Semantic Enhancement Framework for POI Representation Learning
- arxiv url: http://arxiv.org/abs/2502.10038v2
- Date: Tue, 04 Mar 2025 00:19:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:10:32.005808
- Title: POI-Enhancer: An LLM-based Semantic Enhancement Framework for POI Representation Learning
- Title(参考訳): POI-Enhancer:POI表現学習のためのLLMに基づくセマンティック拡張フレームワーク
- Authors: Jiawei Cheng, Jingyuan Wang, Yichuan Zhang, Jiahao Ji, Yuanshao Zhu, Zhibo Zhang, Xiangyu Zhao,
- Abstract要約: 近年の研究では、多モーダル情報によるPOI表現の充実がタスク性能を大幅に向上させることが示されている。
広範なテキストデータに基づいて訓練された大規模言語モデル (LLMs) は、リッチテキストの知識を持つことがわかった。
古典的なPOI学習モデルによって生成されたPOI表現を改善するために,LLMを利用するポータブルフレームワークであるPOI-Enhancerを提案する。
- 参考スコア(独自算出の注目度): 34.93661259065691
- License:
- Abstract: POI representation learning plays a crucial role in handling tasks related to user mobility data. Recent studies have shown that enriching POI representations with multimodal information can significantly enhance their task performance. Previously, the textual information incorporated into POI representations typically involved only POI categories or check-in content, leading to relatively weak textual features in existing methods. In contrast, large language models (LLMs) trained on extensive text data have been found to possess rich textual knowledge. However leveraging such knowledge to enhance POI representation learning presents two key challenges: first, how to extract POI-related knowledge from LLMs effectively, and second, how to integrate the extracted information to enhance POI representations. To address these challenges, we propose POI-Enhancer, a portable framework that leverages LLMs to improve POI representations produced by classic POI learning models. We first design three specialized prompts to extract semantic information from LLMs efficiently. Then, the Dual Feature Alignment module enhances the quality of the extracted information, while the Semantic Feature Fusion module preserves its integrity. The Cross Attention Fusion module then fully adaptively integrates such high-quality information into POI representations and Multi-View Contrastive Learning further injects human-understandable semantic information into these representations. Extensive experiments on three real-world datasets demonstrate the effectiveness of our framework, showing significant improvements across all baseline representations.
- Abstract(参考訳): POI表現学習は、ユーザモビリティデータに関連するタスクの処理において重要な役割を果たす。
近年の研究では、多モーダル情報によるPOI表現の充実がタスク性能を大幅に向上させることが示されている。
以前は、POI表現に組み込まれたテキスト情報は、通常、POIカテゴリまたはチェックインコンテンツのみを含んでいた。
対照的に、広範なテキストデータに基づいて訓練された大規模言語モデル (LLM) は、リッチなテキスト知識を持つことがわかった。
しかし、これらの知識を活用してPOI表現学習を強化することは、まず、LLMからPOI関連知識を効果的に抽出する方法と、抽出した情報を統合してPOI表現を強化する方法の2つの重要な課題を提示する。
これらの課題に対処するために,古典的なPOI学習モデルによって生成されたPOI表現を改善するためにLLMを利用するポータブルフレームワークであるPOI-Enhancerを提案する。
まず,LLMから意味情報を効率的に抽出する3つのプロンプトを設計する。
次に、Dual Feature Alignmentモジュールは抽出した情報の質を高め、Semantic Feature Fusionモジュールはその整合性を維持する。
クロス・アテンション・フュージョン(Cross Attention Fusion)モジュールは、そのような高品質な情報をPOI表現に完全に適応的に統合し、マルチビュー・コントラスト・ラーニング(Multi-View Contrastive Learning)は、これらの表現に人間の理解可能なセマンティック情報を注入する。
3つの実世界のデータセットに対する大規模な実験により、我々のフレームワークの有効性が示され、すべてのベースライン表現に大きな改善が見られた。
関連論文リスト
- RoRA-VLM: Robust Retrieval-Augmented Vision Language Models [41.09545760534495]
RORA-VLMは、視覚言語モデルに特化して設計された、新規で堅牢な検索拡張フレームワークである。
提案手法の有効性とロバスト性を,広く採用されている3つのベンチマークデータセット上で検証する。
論文 参考訳(メタデータ) (2024-10-11T14:51:00Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - DIM: Dynamic Integration of Multimodal Entity Linking with Large Language Model [16.20833396645551]
本稿では,ChatGPTを用いた動的エンティティ抽出を提案する。
知識ベース(DIM)とマルチモーダル情報を動的に統合し、視覚的理解にLarge Language Model(LLM)の機能を利用する方法を提案する。
論文 参考訳(メタデータ) (2024-06-27T15:18:23Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Decomposition for Enhancing Attention: Improving LLM-based Text-to-SQL through Workflow Paradigm [19.06214756792692]
大規模言語モデル(LLM)の文脈内学習は自然言語処理の分野で大きな成功を収めている。
ケーススタディでは、一段階のチェーン・オブ・シントアプローチが、テキスト・トゥ・コレクションのような複雑なタスクにおける注意拡散や不適切なパフォーマンスといった課題に直面していることが明らかになった。
分解によりLLMの注目度と問題解決範囲を高めることを目的としたワークフローパラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-16T13:24:05Z) - CLIP-based Synergistic Knowledge Transfer for Text-based Person
Retrieval [66.93563107820687]
個人検索(TPR)のためのCLIPベースのSynergistic Knowledge Transfer(CSKT)アプローチを提案する。
入力側でCLIPの知識を探索するために、まず、テキスト・ツー・イメージと画像・ツー・テキストの双方向プロンプトと結合プロンプトによって構築された双方向プロンプト転送(BPT)モジュールを提案する。
CSKTは、トレーニングパラメータがモデル全体の7.4%を占めるだけで、3つのベンチマークデータセットで最先端のアプローチを上回っている。
論文 参考訳(メタデータ) (2023-09-18T05:38:49Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - M3PT: A Multi-Modal Model for POI Tagging [18.585818094015465]
我々は,POIタグの強化を実現する新しいマルチモーダルモデル,すなわちM3PTを提案する。
まず、ドメイン適応型画像エンコーダ(DIE)を考案し、それらのゴールドタグのセマンティクスに整合した画像埋め込みを得る。
M3PTのテキストイメージ融合モジュール(TIF)では、テキストと視覚の表現は、後続のマッチングのためにPOIのコンテンツ埋め込みに完全に融合される。
論文 参考訳(メタデータ) (2023-06-16T05:46:27Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。