論文の概要: Large Language Models are Learnable Planners for Long-Term Recommendation
- arxiv url: http://arxiv.org/abs/2403.00843v2
- Date: Fri, 26 Apr 2024 07:41:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 17:18:42.251028
- Title: Large Language Models are Learnable Planners for Long-Term Recommendation
- Title(参考訳): 長期的勧告のための学習可能なプランナとしての大規模言語モデル
- Authors: Wentao Shi, Xiangnan He, Yang Zhang, Chongming Gao, Xinyue Li, Jizhi Zhang, Qifan Wang, Fuli Feng,
- Abstract要約: 即時利益と長期利益の両方の計画が、勧告においてますます重要になる。
既存手法では,長期的推薦に対する累積報酬を最大化することにより,計画能力の学習に強化学習を適用している。
本稿では,長期的推薦のために,大規模言語モデルのスパースデータよりも優れた計画能力を活用することを提案する。
- 参考スコア(独自算出の注目度): 59.167795967630305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Planning for both immediate and long-term benefits becomes increasingly important in recommendation. Existing methods apply Reinforcement Learning (RL) to learn planning capacity by maximizing cumulative reward for long-term recommendation. However, the scarcity of recommendation data presents challenges such as instability and susceptibility to overfitting when training RL models from scratch, resulting in sub-optimal performance. In this light, we propose to leverage the remarkable planning capabilities over sparse data of Large Language Models (LLMs) for long-term recommendation. The key to achieving the target lies in formulating a guidance plan following principles of enhancing long-term engagement and grounding the plan to effective and executable actions in a personalized manner. To this end, we propose a Bi-level Learnable LLM Planner framework, which consists of a set of LLM instances and breaks down the learning process into macro-learning and micro-learning to learn macro-level guidance and micro-level personalized recommendation policies, respectively. Extensive experiments validate that the framework facilitates the planning ability of LLMs for long-term recommendation. Our code and data can be found at https://github.com/jizhi-zhang/BiLLP.
- Abstract(参考訳): 即時利益と長期利益の両方の計画が、勧告においてますます重要になる。
既存手法では,長期的推薦に対する累積報酬を最大化することにより,計画能力の学習に強化学習(RL)を適用している。
しかしながら、レコメンデーションデータの不足は、RLモデルをスクラッチからトレーニングする際の不安定性や過度な適合に対する感受性などの課題を示し、結果として準最適性能をもたらす。
本稿では,Large Language Models (LLMs) のスパースデータよりも,長期的勧告に優れた計画能力を活用することを提案する。
目標達成の鍵は、長期的なエンゲージメントを強化し、パーソナライズされた方法で効果的かつ実行可能な行動を行うための計画を基礎付ける原則に従って、ガイダンスプランを策定することにある。
そこで本研究では,LLMインスタンスの集合からなるBi-level Learnable LLM Plannerフレームワークを提案し,学習プロセスをマクロ学習とマイクロ学習に分解し,マクロレベルのガイダンスとマイクロレベルのパーソナライズされたレコメンデーションポリシーを学習する。
大規模な実験により、長期的勧告のためにLLMの計画能力を促進することが検証された。
コードとデータはhttps://github.com/jizhi-zhang/BiLLP.comで確認できます。
関連論文リスト
- Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。
KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文 参考訳(メタデータ) (2024-06-20T13:07:38Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning [12.651588927599441]
インストラクションチューニングは、大きな言語モデルにオープンドメイン命令と人間優先応答を合わせることを目的としている。
学生のLLMの追従が難しい命令を選択するために,TAPIR(Task-Aware Curriculum Planning for Instruction Refinement)を導入する。
学生の能力のバランスをとるために、トレーニングセット内のタスク分布は、対応するタスクに応じて自動的に調整された応答で調整される。
論文 参考訳(メタデータ) (2024-05-22T08:38:26Z) - RecMind: Large Language Model Powered Agent For Recommendation [16.710558148184205]
RecMindは、ゼロショットパーソナライズされたレコメンデーションを慎重に計画する自律的なレコメンデーションエージェントである。
実験の結果,RecMind は既存のゼロ/フェーショット LLM ベースのレコメンデーションベースライン手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-28T04:31:04Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - Understanding the Capabilities of Large Language Models for Automated
Planning [24.37599752610625]
この研究は、複雑な計画問題の解決におけるLLMの能力に光を当てようとしている。
この文脈で LLM を使用するための最も効果的なアプローチに関する洞察を提供する。
論文 参考訳(メタデータ) (2023-05-25T15:21:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。