論文の概要: Optimizing Novelty of Top-k Recommendations using Large Language Models and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2406.14169v1
- Date: Thu, 20 Jun 2024 10:20:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 14:21:16.570779
- Title: Optimizing Novelty of Top-k Recommendations using Large Language Models and Reinforcement Learning
- Title(参考訳): 大規模言語モデルと強化学習を用いたトップkレコメンデーションの新規性最適化
- Authors: Amit Sharma, Hua Li, Xue Li, Jian Jiao,
- Abstract要約: 現実世界のシステムでは、新しいモデルに対する重要な考慮は、トップkレコメンデーションの新規性である。
本稿では,大規模言語モデルが新しい項目に対するフィードバックを提供する強化学習(RL)の定式化を提案する。
大規模検索エンジンにおけるクエリーアドレコメンデーションタスクの新規性向上のための提案アルゴリズムの評価を行った。
- 参考スコア(独自算出の注目度): 16.287067991245962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given an input query, a recommendation model is trained using user feedback data (e.g., click data) to output a ranked list of items. In real-world systems, besides accuracy, an important consideration for a new model is novelty of its top-k recommendations w.r.t. an existing deployed model. However, novelty of top-k items is a difficult goal to optimize a model for, since it involves a non-differentiable sorting operation on the model's predictions. Moreover, novel items, by definition, do not have any user feedback data. Given the semantic capabilities of large language models, we address these problems using a reinforcement learning (RL) formulation where large language models provide feedback for the novel items. However, given millions of candidate items, the sample complexity of a standard RL algorithm can be prohibitively high. To reduce sample complexity, we reduce the top-k list reward to a set of item-wise rewards and reformulate the state space to consist of <query, item> tuples such that the action space is reduced to a binary decision; and show that this reformulation results in a significantly lower complexity when the number of items is large. We evaluate the proposed algorithm on improving novelty for a query-ad recommendation task on a large-scale search engine. Compared to supervised finetuning on recent <query, ad> pairs, the proposed RL-based algorithm leads to significant novelty gains with minimal loss in recall. We obtain similar results on the ORCAS query-webpage matching dataset and a product recommendation dataset based on Amazon reviews.
- Abstract(参考訳): 入力クエリが与えられた場合、ユーザフィードバックデータ(例えば、クリックデータ)を使用してレコメンデーションモデルをトレーニングし、ランク付けされた項目のリストを出力する。
実世界のシステムでは、精度の他に、新しいモデルに対する重要な考慮は、既存のデプロイモデルのようなトップkレコメンデーションの新規性である。
しかしながら、トップk項目の新規性は、モデルの予測に対する微分不可能なソート操作を含むため、モデルの最適化が困難な目標である。
さらに、新しいアイテムは、定義上、ユーザーからのフィードバックデータを持っていない。
大規模言語モデルのセマンティック機能を考えると,これらの問題に対して,大規模言語モデルが新たな項目に対するフィードバックを提供する強化学習(RL)の定式化を用いて対処する。
しかし、数百万の候補項目が与えられた場合、標準RLアルゴリズムのサンプルの複雑さは違法に高い。
サンプルの複雑さを低減するため、アイテム単位の報酬に対するトップkリスト報酬を削減し、アクション空間を二分決定に還元する<query, item>タプルからなる状態空間を再構成する。
大規模検索エンジンにおけるクエリーアドレコメンデーションタスクの新規性向上のための提案アルゴリズムの評価を行った。
近年の<query, ad>ペアの教師付き微調整と比較して,提案アルゴリズムはリコールの損失を最小限に抑えながら,顕著な新規性向上をもたらす。
ORCASクエリ・ウェブページマッチングデータセットとAmazonレビューに基づく製品推薦データセットで同様の結果を得た。
関連論文リスト
- Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Large Language Models for Relevance Judgment in Product Search [48.56992980315751]
検索クエリに対する検索および再ランクされたアイテムの高い関連性は、製品検索の成功の土台である。
本稿では,大規模言語モデル(LLM)を活用して,クエリ・イテムペア(QIP)の関連判断を大規模に自動化する手法について述べる。
本研究は,製品検索における関連判断の自動化の分野への直接的な影響を示唆するものである。
論文 参考訳(メタデータ) (2024-06-01T00:52:41Z) - Ask Optimal Questions: Aligning Large Language Models with Retriever's
Preference in Conversational Search [25.16282868262589]
RetPOは、ターゲット検索システムの好みに合わせて検索クエリを再構成するための言語モデル(LM)を最適化するように設計されている。
我々は、12Kの会話で410K以上のクエリを書き換えるRetrievers' Feedbackと呼ばれる大規模なデータセットを構築した。
このモデルにより,最近の2つの対話型検索ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-02-19T04:41:31Z) - List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - Revisiting Neural Retrieval on Accelerators [20.415728886298915]
検索の重要な構成要素は、(ユーザ、アイテム)類似性をモデル化することである。
その人気にもかかわらず、ドット製品は多面的であり、おそらく高いランクにある複雑なユーザとイテムのインタラクションをキャプチャすることはできない。
本稿では,基本類似度関数の適応的構成として,ユーザ,アイテムの類似度をモデル化したロジットのテキストミックス(MoL)を提案する。
論文 参考訳(メタデータ) (2023-06-06T22:08:42Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z) - Characterizing Attribution and Fluency Tradeoffs for Retrieval-Augmented
Large Language Models [6.425088990363101]
本研究では, 大規模言語モデルにおけるフラレンシと帰属の関係について検討した。
より大きなモデルは、流布と帰属の両方において、より優れた結果をもたらす傾向があることを示す。
そこで本研究では,より小さなモデルで大きなモデルとのギャップを埋めることと,トップk検索のメリットを両立できるレシピを提案する。
論文 参考訳(メタデータ) (2023-02-11T02:43:34Z) - Fine-grained Retrieval Prompt Tuning [149.9071858259279]
微粒な検索プロンプトチューニングは, サンプルプロンプトと特徴適応の観点から, きめの細かい検索タスクを実行するために, 凍結した事前学習モデルを操る。
学習可能なパラメータが少ないFRPTは、広く使われている3つの細粒度データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-29T04:10:04Z) - Low-variance estimation in the Plackett-Luce model via quasi-Monte Carlo
sampling [58.14878401145309]
PLモデルにおいて,より標本効率の高い予測値を生成するための新しい手法を開発した。
Amazon MusicのリアルなレコメンデーションデータとYahooの学習からランクへの挑戦を理論的にも実証的にも使用しています。
論文 参考訳(メタデータ) (2022-05-12T11:15:47Z) - Top-N Recommendation with Counterfactual User Preference Simulation [26.597102553608348]
ユーザーランキングに基づく好みの学習を目的としたTop-Nレコメンデーションは、長い間、広範囲のアプリケーションにおいて基本的な問題だった。
本稿では,データ不足問題に対処するため,因果推論フレームワーク内での推薦タスクの再構築を提案する。
論文 参考訳(メタデータ) (2021-09-02T14:28:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。