論文の概要: Refine-POI: Reinforcement Fine-Tuned Large Language Models for Next Point-of-Interest Recommendation
- arxiv url: http://arxiv.org/abs/2506.21599v2
- Date: Mon, 30 Jun 2025 11:36:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 15:08:39.852414
- Title: Refine-POI: Reinforcement Fine-Tuned Large Language Models for Next Point-of-Interest Recommendation
- Title(参考訳): Refine-POI:次のポイント・オブ・インテンシブ・レコメンデーションのための微調整大言語モデルの強化
- Authors: Peibo Li, Shuang Ao, Hao Xue, Yang Song, Maarten de Rijke, Johan Barthélemy, Tomasz Bednarz, Flora D. Salim,
- Abstract要約: 大規模言語モデル(LLM)は、次のPOI(point-of-interest)レコメンデーションタスクに採用されている。
次回のPOI勧告のための強化微調整フレームワークであるRefine-POIを提案する。
- 参考スコア(独自算出の注目度): 51.08869388483333
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have been adopted for next point-of-interest (POI) recommendation tasks. Typical LLM-based recommenders fall into two categories: prompt-based and supervised fine-tuning (SFT)-based models. Prompt-based models generally offer greater output flexibility but deliver lower accuracy, whereas SFT-based models achieve higher performance yet face a fundamental mismatch: next POI recommendation data does not naturally suit supervised fine-tuning. In SFT, the model is trained to reproduce the exact ground truth, but each training example provides only a single target POI, so there is no ground truth for producing a top-k list. To address this, we propose Refine-POI, a reinforcement fine-tuning framework for next POI recommendation. We introduce recommendation-driven rewards that enable LLMs to learn to generate top-k recommendation lists using only one ground-truth POI per example. Experiments on real-world datasets demonstrate that Refine-POI achieves state-of-the-art top-k recommendation performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、次のPOI(point-of-interest)レコメンデーションタスクに採用されている。
典型的なLSMベースのレコメンデータは、プロンプトベースと教師付き微調整(SFT)ベースのモデルという2つのカテゴリに分類される。
プロンプトベースのモデルは一般的に出力の柔軟性が向上するが、精度は低下するが、SFTベースのモデルはパフォーマンスが向上するが、基本的なミスマッチに直面している。
SFTでは、モデルは正確な基底真理を再現するように訓練されるが、各トレーニング例は1つのターゲットPOIのみを提供するため、トップkリストを生成するための基礎真理は存在しない。
そこで我々は,次のPOIレコメンデーションのための強化微調整フレームワークRefine-POIを提案する。
提案では,LLMが1例につき1つの基幹POIのみを用いてトップkレコメンデーションリストを生成することを学べるレコメンデーション駆動報酬を導入する。
実世界のデータセットの実験では、Refine-POIが最先端のトップkレコメンデーションパフォーマンスを達成した。
関連論文リスト
- A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - MPPO: Multi Pair-wise Preference Optimization for LLMs with Arbitrary Negative Samples [22.521746860874305]
本研究では,モデル応答の平均確率を利用して報酬関数に適合するMPPOアルゴリズムを提案する。
Pair-wise、Pair-wise、List-wiseの実装の比較により、Pair-wiseアプローチが最高のパフォーマンスを実現することがわかった。
実験の結果、MPPOは様々なベンチマークで優れた性能を示した。
論文 参考訳(メタデータ) (2024-12-13T14:18:58Z) - SPRec: Self-Play to Debias LLM-based Recommendation [23.875509546540904]
大規模言語モデル(LLM)はレコメンデーションシステムにおいて大きな注目を集めている。
SPRecは、過剰勧告を緩和し、追加のデータや手動による介入を必要とせずに公平性を向上させるために設計された新しいセルフプレイフレームワークである。
論文 参考訳(メタデータ) (2024-12-12T12:53:30Z) - Direct Preference Optimization for LLM-Enhanced Recommendation Systems [33.54698201942643]
大規模言語モデル(LLM)は、幅広い領域で顕著なパフォーマンスを示している。
我々は,DPOをLLM強化レコメンデーションシステムに統合するフレームワークであるDPO4Recを提案する。
大規模な実験により、DPO4Recは強いベースラインよりも性能が大幅に向上した。
論文 参考訳(メタデータ) (2024-10-08T11:42:37Z) - On Softmax Direct Preference Optimization for Recommendation [50.896117978746]
そこで我々は,LMをベースとした推奨項目の識別を支援するために,ランキング情報をLMに挿入するソフトマックスDPO(S-DPO)を提案する。
具体的には、ユーザの嗜好データに複数の負を組み込んで、LMベースのレコメンデータに適したDPO損失の代替版を考案する。
論文 参考訳(メタデータ) (2024-06-13T15:16:11Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Model Extrapolation Expedites Alignment [135.12769233630362]
本研究では,人選好によるアライメントトレーニングを迅速化するExPOという手法を提案する。
我々は、ExPOがトレーニングされたDPOモデルを20%のステップで強化し、完全に訓練されたモデルを上回ることを実証した。
ExPO は AlpacaEval 2.0 と MT-Bench ベンチマークにおいて,既存のオープンソース LLM を特に改善している。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。