論文の概要: Maximum In-Support Return Modeling for Dynamic Recommendation with Language Model Prior
- arxiv url: http://arxiv.org/abs/2510.12816v1
- Date: Thu, 09 Oct 2025 06:43:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.322398
- Title: Maximum In-Support Return Modeling for Dynamic Recommendation with Language Model Prior
- Title(参考訳): 言語モデルによる動的レコメンデーションの最大応答モデル
- Authors: Xiaocong Chen, Siyu Wang, Lina Yao,
- Abstract要約: 我々は、DT(Decision Transformer)上に構築されたオフラインRLRSフレームワークであるMDT4Recを導入し、2つの大きな課題に対処する。
まず、MDT4Recは、軌道縫合手順をトレーニングフェーズからアクション推論にシフトし、システムの履歴コンテキストを短縮する。
5つの公開データセットとオンラインシミュレーション環境でMDT4Recを評価し、既存の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 21.121675704860913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning-based recommender systems (RLRS) offer an effective way to handle sequential recommendation tasks but often face difficulties in real-world settings, where user feedback data can be sub-optimal or sparse. In this paper, we introduce MDT4Rec, an offline RLRS framework that builds on the Decision Transformer (DT) to address two major challenges: learning from sub-optimal histories and representing complex user-item interactions. First, MDT4Rec shifts the trajectory stitching procedure from the training phase to action inference, allowing the system to shorten its historical context when necessary and thereby ignore negative or unsuccessful past experiences. Second, MDT4Rec initializes DT with a pre-trained large language model (LLM) for knowledge transfer, replaces linear embedding layers with Multi-Layer Perceptrons (MLPs) for more flexible representations, and employs Low-Rank Adaptation (LoRA) to efficiently fine-tune only a small subset of parameters. We evaluate MDT4Rec on five public datasets and in an online simulation environment, demonstrating that it outperforms existing methods.
- Abstract(参考訳): 強化学習ベースのレコメンデータシステム(RLRS)は、シーケンシャルなレコメンデーションタスクを処理する効果的な方法を提供するが、ユーザフィードバックデータをサブ最適またはスパースにすることができる現実の環境では困難に直面することが多い。
本稿では,DT(Decision Transformer)をベースとしたオフラインRLRSフレームワークであるMDT4Recを紹介する。
まず、MDT4Recは、軌道縫合手順をトレーニングフェーズからアクション推論にシフトし、必要に応じて履歴コンテキストを短くすることで、ネガティブまたは失敗に終わった過去の経験を無視する。
第二に、MDT4RecはDTを知識伝達のための訓練済みの大規模言語モデル(LLM)で初期化し、より柔軟な表現のために線形埋め込み層をMulti-Layer Perceptrons(MLP)に置き換え、ローランド適応(LoRA)を用いてパラメータの小さなサブセットだけを効率的に微調整する。
5つの公開データセットとオンラインシミュレーション環境でMDT4Recを評価し、既存の手法よりも優れていることを示す。
関連論文リスト
- Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。
本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文 参考訳(メタデータ) (2025-01-08T20:11:09Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Pre-trained Language Models Improve the Few-shot Prompt Ability of Decision Transformer [10.338170161831496]
決定変換器(DT)は、オフライン強化学習(RL)タスクにおいて、有望なアルゴリズムのクラスとして登場した。
本稿では,Language model-d Prompt Transformer (LPDT)を紹介し,Language model-d Prompt Transformer (LPDT)について述べる。
我々のアプローチは、事前訓練された言語モデルとRLタスクをシームレスに統合する。
論文 参考訳(メタデータ) (2024-08-02T17:25:34Z) - Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [50.9692060692705]
本稿では、オフラインRL用の決定変換器をベースとした一般的なフレームワークである、$textbfMo$tion Control(textbfLaMo$)のための$textbfLanguage Modelsを紹介する。
私たちのフレームワークは4つの重要なコンポーネントを強調しています。
逐次事前学習したLMを用いた決定変換器の初期化(2)LoRA微細調整法を用いて
特に,本手法は,限られたデータサンプルを持つシナリオにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z) - ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation [43.270424225285105]
ゼロショットと少数ショットのレコメンデーションタスクのために、純粋に大きな言語モデルを適応し、強化することに重点を置いています。
ゼロショット設定と少数ショット設定の両方でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。
論文 参考訳(メタデータ) (2023-08-22T02:25:04Z) - Decision S4: Efficient Sequence-Based RL via State Spaces Layers [87.3063565438089]
我々は、S4モデルの訓練効率を維持しつつ、軌道で機能する非政治的な訓練手順を提案する。
反復的に訓練され、長距離依存の恩恵を受け、新しい安定したアクター・クリティカルなメカニズムをベースとした、オンデマンドのトレーニング手順。
論文 参考訳(メタデータ) (2023-06-08T13:03:53Z) - TransRec: Learning Transferable Recommendation from Mixture-of-Modality Feedback [19.78472406958724]
本稿では,一般的なIDベースのレコメンデータシステム(RS)フレームワークを改良したTransRecを提案する。
TransRecは、エンドツーエンドのトレーニング方法で、MoMアイテムの生の特徴から直接学習する。
この結果から,MoMフィードバックからニューラルレコメンデーションモデルを学ぶことは,ユニバーサルRSを実現する上で有望な方法であることが示唆された。
論文 参考訳(メタデータ) (2022-06-13T14:23:34Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。