Fugu-MT 論文翻訳(概要): Are LLM-based Recommenders Already the Best? Simple Scaled Cross-entropy Unleashes the Potential of Traditional Sequential Recommenders

論文の概要: Are LLM-based Recommenders Already the Best? Simple Scaled Cross-entropy Unleashes the Potential of Traditional Sequential Recommenders

arxiv url: http://arxiv.org/abs/2408.14238v1
Date: Mon, 26 Aug 2024 12:52:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 20:58:01.72113
Title: Are LLM-based Recommenders Already the Best? Simple Scaled Cross-entropy Unleashes the Potential of Traditional Sequential Recommenders
Title（参考訳）: LLMベースのレコメンダは最高か? 単純スケールのクロスエントロピーは従来のシークエンシャルレコメンダの可能性を解き放つ
Authors: Cong Xu, Zhangchi Zhu, Mo Yu, Jun Wang, Jianyong Wang, Wei Zhang,
Abstract要約: 大規模言語モデル(LLM)はレコメンデーションコミュニティで注目を集めている。一部の研究では、LLMが完全なソフトマックスでクロスエントロピー(CE)の損失によって微調整された場合、シーケンシャルなレコメンデーションで最先端のパフォーマンスを達成することが観察されている。本研究は,クロスエントロピー損失の優越性を理論的に正当化するものである。
参考スコア（独自算出の注目度）: 31.116716790604116
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have been garnering increasing attention in the recommendation community. Some studies have observed that LLMs, when fine-tuned by the cross-entropy (CE) loss with a full softmax, could achieve `state-of-the-art' performance in sequential recommendation. However, most of the baselines used for comparison are trained using a pointwise/pairwise loss function. This inconsistent experimental setting leads to the underestimation of traditional methods and further fosters over-confidence in the ranking capability of LLMs. In this study, we provide theoretical justification for the superiority of the cross-entropy loss by demonstrating its two desirable properties: tightness and coverage. Furthermore, this study sheds light on additional novel insights: 1) Taking into account only the recommendation performance, CE is not yet optimal as it is not a quite tight bound in terms of some ranking metrics. 2) In scenarios that full softmax cannot be performed, an effective alternative is to scale up the sampled normalizing term. These findings then help unleash the potential of traditional recommendation models, allowing them to surpass LLM-based counterparts. Given the substantial computational burden, existing LLM-based methods are not as effective as claimed for sequential recommendation. We hope that these theoretical understandings in conjunction with the empirical results will facilitate an objective evaluation of LLM-based recommendation in the future.
Abstract（参考訳）: 大規模言語モデル(LLM)はレコメンデーションコミュニティで注目を集めている。一部の研究では, クロスエントロピー(CE)損失をフルソフトマックスで微調整すると, シーケンシャルなレコメンデーションで「最先端」のパフォーマンスが得られることが示されている。しかし、比較に用いられるベースラインのほとんどは、ポイントワイド/ペアワイド損失関数を使って訓練されている。この矛盾した実験環境は,従来の手法の過小評価を招き,LLMの格付け能力に対する自信の過大化をさらに促進させる。本研究では,2つの望ましい特性である強靭性と包摂性を示すことによって,クロスエントロピー損失の優越性を理論的に正当化する。さらに、この研究は、新たな洞察に光を当てています。 1)レコメンデーションのパフォーマンスだけを考慮すると、CEはまだ最適ではありません。 2) 全ソフトマックスが実行できないシナリオでは,サンプル正規化項のスケールアップが効果的である。これらの発見は、従来のレコメンデーションモデルの可能性を解き放つのに役立つ。計算負荷が大きいことを考えると、既存のLCMベースの手法は逐次勧告の要求ほど効果的ではない。我々は,これらの理論的理解と経験的結果が,将来LSMに基づく推薦の客観的評価を促進することを期待する。

関連論文リスト

Exploring the Potential of LLMs for Serendipity Evaluation in Recommender Systems [10.227007419503297]
大規模言語モデル(LLM)は、様々な人間のアノテーションタスクで評価手法に革命をもたらしている。電子商取引および映画分野における実際のユーザ研究から得られた2つのデータセットのメタ評価を行う。以上の結果から,最も単純なゼロショットLLMであっても,従来の測定値と同等あるいは超える性能が得られることが示唆された。
論文参考訳（メタデータ） (2025-07-23T07:51:56Z)
$\ ext{R}^2\ ext{ec}$: Towards Large Recommender Models with Reasoning [50.291998724376654]
我々は,本質的な推論機能を備えた統合された大規模レコメンデータモデルであるnameを提案する。 RecPOは、単一のポリシー更新で推論とレコメンデーションの両方の機能を同時に最適化する、対応する強化学習フレームワークである。さまざまなベースラインを持つ3つのデータセットの実験では、Hit@5で68.67%、NDCG@20で45.21%の相対的な改善が見られた。
論文参考訳（メタデータ） (2025-05-22T17:55:43Z)
Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文参考訳（メタデータ） (2025-04-10T07:50:03Z)
Decoding Recommendation Behaviors of In-Context Learning LLMs Through Gradient Descent [15.425423867768163]
本稿では,理論モデル LLM-ICL Recommendation Equivalent Gradient Descent Model (LRGD) を提案する。 LLMにおけるICL推論プロセスは、その二重モデルのトレーニング手順と一致し、二重モデルの試験出力に相当するトークン予測を生成する。さらに実演効率を向上し,性能崩壊を防止し,長期適応性を確保するため,実演における2段階最適化プロセスを提案する。
論文参考訳（メタデータ） (2025-04-06T06:36:45Z)
Direct Preference Optimization for LLM-Enhanced Recommendation Systems [33.54698201942643]
大規模言語モデル(LLM)は、幅広い領域で顕著なパフォーマンスを示している。我々は,DPOをLLM強化レコメンデーションシステムに統合するフレームワークであるDPO4Recを提案する。大規模な実験により、DPO4Recは強いベースラインよりも性能が大幅に向上した。
論文参考訳（メタデータ） (2024-10-08T11:42:37Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
HLLM: Enhancing Sequential Recommendations via Hierarchical Large Language Models for Item and User Modeling [21.495443162191332]
大規模言語モデル(LLM)は様々な分野で顕著な成功を収めており、いくつかの研究がレコメンデーションシステムにおいてその可能性を探求している。逐次レコメンデーションシステムを強化するために,新しい階層型大規模言語モデル (HLLM) アーキテクチャを提案する。 HLLMは,項目特徴抽出とユーザ関心モデリングの両方に 7B パラメータを利用する構成で,優れたスケーラビリティを実現している。
論文参考訳（メタデータ） (2024-09-19T13:03:07Z)
Can LLMs predict the convergence of Stochastic Gradient Descent? [5.206475868803433]
大規模なランダム化モデルは、様々なタスクにまたがる優れたパフォーマンスで有名です。このような驚くべきパフォーマンスの1つの驚くべき例は、マルコフシステムの原則を満たす、最近特定されたタスクである。
論文参考訳（メタデータ） (2024-08-03T10:35:59Z)
Finetuning Large Language Model for Personalized Ranking [12.16551080986962]
大規模言語モデル(LLM)は、様々な領域で顕著なパフォーマンスを示している。 DMPO(Direct Multi-Preference Optimization)は、リコメンデーションタスクのギャップを埋め、LLMのアライメントを強化するために設計されたフレームワークである。
論文参考訳（メタデータ） (2024-05-25T08:36:15Z)
Improve Temporal Awareness of LLMs for Sequential Recommendation [61.723928508200196]
大規模言語モデル(LLM)は、幅広い汎用タスクを解く際、印象的なゼロショット能力を示した。 LLMは時間的情報の認識と利用に不足しており、シーケンシャルなデータの理解を必要とするタスクではパフォーマンスが悪い。 LLMに基づくシーケンシャルレコメンデーションのために、歴史的相互作用の中で時間情報を利用する3つのプロンプト戦略を提案する。
論文参考訳（メタデータ） (2024-05-05T00:21:26Z)
Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文参考訳（メタデータ） (2024-04-22T17:20:18Z)
LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文参考訳（メタデータ） (2023-08-23T16:32:54Z)
On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-05-23T16:56:04Z)
Is ChatGPT Fair for Recommendation? Evaluating Fairness in Large Language Model Recommendation [52.62492168507781]
LLM(FaiRLLM)を用いたFairness of Recommendationと呼ばれる新しいベンチマークを提案する。このベンチマークは、慎重に作成されたメトリクスと、8つの機密属性を考慮に入れたデータセットで構成されている。 FaiRLLMベンチマークを用いて、ChatGPTの評価を行い、レコメンデーションを生成する際には、いくつかの機密属性に対して不公平であることがわかった。
論文参考訳（メタデータ） (2023-05-12T16:54:36Z)
Principled Reinforcement Learning with Human Feedback from Pairwise or $K$-wise Comparisons [79.98542868281473]
RLHF(Reinforcement Learning with Human Feedback)の理論的枠組みを提供する。学習した報酬モデルに基づいてポリシーをトレーニングする際、MLEは失敗し、悲観的なMLEは特定のカバレッジ仮定の下で性能を改善したポリシーを提供する。
論文参考訳（メタデータ） (2023-01-26T18:07:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。