論文の概要: DRDT: Dynamic Reflection with Divergent Thinking for LLM-based
Sequential Recommendation
- arxiv url: http://arxiv.org/abs/2312.11336v1
- Date: Mon, 18 Dec 2023 16:41:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 19:17:57.709151
- Title: DRDT: Dynamic Reflection with Divergent Thinking for LLM-based
Sequential Recommendation
- Title(参考訳): DRDT:LLMに基づくシーケンスレコメンデーションのためのダイバージェント思考を用いた動的リフレクション
- Authors: Yu Wang, Zhiwei Liu, Jianguo Zhang, Weiran Yao, Shelby Heinecke,
Philip S. Yu
- Abstract要約: 進化的思考を伴う動的反射(Dynamic Reflection with Divergent Thinking)という新しい推論原理を導入する。
我々の方法論はダイナミックリフレクション(動的リフレクション)であり、探索、批評、反射を通じて人間の学習をエミュレートするプロセスである。
6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
- 参考スコア(独自算出の注目度): 53.62727171363384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of Large Language Models (LLMs) has sparked interest in their
application to sequential recommendation tasks as they can provide supportive
item information. However, due to the inherent complexities of sequential
recommendation, such as sequential patterns across datasets, noise within
sequences, and the temporal evolution of user preferences, existing LLM
reasoning strategies, such as in-context learning and chain-of-thought are not
fully effective. To address these challenges, we introduce a novel reasoning
principle: Dynamic Reflection with Divergent Thinking within a
retriever-reranker framework. Our approach starts with a collaborative
in-context demonstration retriever, which collects sequences exhibiting
collaborative behaviors as in-context examples. Following this, we abstract
high-level user preferences across multiple aspects, providing a more nuanced
understanding of user interests and circumventing the noise within the raw
sequences. The cornerstone of our methodology is dynamic reflection, a process
that emulates human learning through probing, critiquing, and reflecting, using
user feedback to tailor the analysis more effectively to the target user in a
temporal manner. We evaluate our approach on three datasets using six
pre-trained LLMs. The superior performance observed across these models
demonstrates the efficacy of our reasoning strategy, notably achieved without
the need to fine-tune the LLMs. With our principle, we managed to outperform
GPT-Turbo-3.5 on three datasets using 7b models e.g., Vicuna-7b and Openchat-7b
on NDCG@10. This research not only highlights the potential of LLMs in
enhancing sequential recommendation systems but also underscores the importance
of developing tailored reasoning strategies to fully harness their
capabilities.
- Abstract(参考訳): 大規模言語モデル(llm)の台頭は、支援的なアイテム情報を提供するため、逐次レコメンデーションタスクへのアプリケーションへの関心を喚起した。
しかし、データセット間のシーケンシャルなパターンやシーケンス内のノイズ、ユーザの好みの時間的進化といったシーケンシャルなレコメンデーションの複雑さのため、インコンテキスト学習やチェーンオブ思考といった既存のLCM推論戦略は完全には効果がない。
これらの課題に対処するために、リトリバー・リランダ・フレームワーク内でのダイバージェント思考による動的リフレクションという新しい推論原理を導入する。
提案手法は,協調的な動作を示すシーケンスをインコンテキストの例として収集する,協調的なインコンテキストデモ検索から始まる。
これに続いて,複数の側面にわたるハイレベルなユーザの好みを抽象化し,ユーザの興味をより微妙な理解と,生のシーケンス内のノイズを回避する。
提案手法の基盤となるのはダイナミックリフレクション(動的リフレクション)であり,ユーザのフィードバックを用いて,対象ユーザに対して時間的により効率的に分析を調整し,人間の学習をエミュレートするプロセスである。
6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
これらのモデルで観察される優れた性能は, LLMを微調整することなく, 我々の推論戦略の有効性を示すものである。
NDCG@10では、Vicuna-7bやOpenchat-7bといった7bモデルを使用して、GPT-Turbo-3.5を3つのデータセットで上回りました。
この研究は、逐次レコメンデーションシステムの強化におけるLLMの可能性を強調するだけでなく、それらの能力を完全に活用するための適切な推論戦略を開発することの重要性を強調する。
関連論文リスト
- How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - AQA-Bench: An Interactive Benchmark for Evaluating LLMs' Sequential
Reasoning Ability [29.1826948551409]
AQA-Benchは、大規模言語モデルの逐次推論能力を評価するための新しいベンチマークである。
AQA-Benchは,2進探索,深さ優先探索,幅優先探索という3つのアルゴリズムで構築されている。
我々の調査では興味深い発見がいくつか示されている。
論文 参考訳(メタデータ) (2024-02-14T18:59:33Z) - Representation Learning with Large Language Models for Recommendation [34.46344639742642]
本稿では,大規模言語モデル (LLM) を用いた表現学習によるレコメンデータの強化を目的とした,モデルに依存しないフレームワーク RLMRec を提案する。
RLMRecには補助的なテキスト信号が組み込まれており、LLMが権限を持つユーザ/イテムプロファイリングパラダイムを開発し、LLMの意味空間と協調的関係信号の表現空間を整合させる。
論文 参考訳(メタデータ) (2023-10-24T15:51:13Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential
Behavior Comprehension in Recommendation [44.89764672511655]
ゼロショットと少数ショットのレコメンデーションタスクのために、純粋に大きな言語モデルを適応し、強化することに重点を置いています。
ゼロショット設定と少数ショット設定の両方でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。
論文 参考訳(メタデータ) (2023-08-22T02:25:04Z) - Robust Reinforcement Learning Objectives for Sequential Recommender
Systems [10.226091667719391]
注意に基づくシーケンシャルレコメンデーション手法は,過去のインタラクションからユーザの動的関心を正確に捉えることによって,有望な結果を示した。
近年, これらのモデルに強化学習(RL)を統合する研究が進められている。
RLアルゴリズムを採用することで、政治外のトレーニング、拡張可能なアクションスペースの導入、十分な報酬信号を備えたデータセットの不足といった課題が提示される。
論文 参考訳(メタデータ) (2023-05-30T08:09:08Z) - WSLRec: Weakly Supervised Learning for Neural Sequential Recommendation
Models [24.455665093145818]
我々は、WSLRecと呼ばれる新しいモデルに依存しないトレーニング手法を提案し、3段階のフレームワーク(事前学習、トップ$k$マイニング、本質的、微調整)を採用する。
WSLRec は、BR や ItemCF のようなモデルフリーメソッドから、余分な弱い監督のモデルを事前訓練することで、不完全性の問題を解決すると同時に、最上位の$k のマイニングを活用して、微調整のための弱い監督の信頼性の高いユーザ・イテム関連を検査することで、不正確な問題を解消する。
論文 参考訳(メタデータ) (2022-02-28T08:55:12Z) - S^3-Rec: Self-Supervised Learning for Sequential Recommendation with
Mutual Information Maximization [104.87483578308526]
本稿では,シーケンスレコメンデーションのための自己改善学習のためのモデルS3-Recを提案する。
そこで本稿では,属性,項目,サブシーケンス,シーケンス間の相関関係を学習するために,4つの補助的自己教師対象を考案する。
6つの実世界のデータセットで実施された大規模な実験は、既存の最先端手法よりも提案手法が優れていることを示す。
論文 参考訳(メタデータ) (2020-08-18T11:44:10Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。