論文の概要: MiniRec: Data-Efficient Reinforcement Learning for LLM-based Recommendation
- arxiv url: http://arxiv.org/abs/2602.04278v1
- Date: Wed, 04 Feb 2026 07:15:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.418244
- Title: MiniRec: Data-Efficient Reinforcement Learning for LLM-based Recommendation
- Title(参考訳): MiniRec: LLMに基づくレコメンデーションのためのデータ効率の良い強化学習
- Authors: Lin Wang, Yang Zhang, Jingfan Chen, Xiaoyan Zhao, Fengbin Zhu, Qing Li, Tat-Seng Chua,
- Abstract要約: MiniRecは、RLベースの大規模言語モデル(LLM)レコメンデーションに適したデータ選択フレームワークである。
重要なRL信号 -- 報酬 -- を使ってサンプルの学習性を評価する。
- 参考スコア(独自算出の注目度): 50.417769112326546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of reinforcement learning (RL) into large language models (LLMs) has opened new opportunities for recommender systems by eliciting reasoning and improving user preference modeling. However, RL-based LLM recommendation faces significant efficiency challenges, making full-data training costly. Existing data selection methods define sample value based on learnability or representativeness, yet their loss- or gradient-driven or dataset coverage-driven criteria often misalign with RL learning dynamics, resulting in suboptimal performance. To address this, we propose MiniRec, a data selection framework tailored for RL-based LLM recommendation. MiniRec evaluates sample learnability using key RL signals -- rewards -- pruning samples that are too easy (too high reward) or too difficult (consistently low reward). It assesses representativeness by aligning sample gradients with the approximated "ideal" global RL optimization trajectory, selecting samples that mainly drive model updates, and it also enforces diversity to reduce redundancy. Combined with a curriculum learning strategy from easy to hard samples, MiniRec significantly reduces training cost while largely preserving performance. Extensive experiments demonstrate MiniRec's effectiveness, highlighting the importance of reward-aligned, trajectory-informed data selection in RL-based LLM recommendation.
- Abstract(参考訳): 大規模言語モデル (LLM) への強化学習 (RL) の統合により, 推論を取り入れ, ユーザの嗜好モデリングを改善することで, 推薦システムに新たな機会が開かれた。
しかし、RLベースのLLMレコメンデーションは大きな効率上の課題に直面し、完全なデータトレーニングにコストがかかる。
既存のデータ選択手法は、学習可能性や代表性に基づいてサンプル値を定義するが、その損失または勾配駆動またはデータセットのカバレッジ駆動の基準は、しばしばRL学習のダイナミクスと不一致であり、結果として準最適性能をもたらす。
そこで本研究では,RLベースのLLMレコメンデーションに適したデータ選択フレームワークであるMiniRecを提案する。
MiniRecは、重要なRL信号 -- 報酬 -- を使ってサンプルの学習性を評価する。
サンプル勾配を近似された「理想的」グローバルRL最適化軌道と整合させることで代表性を評価し、主にモデル更新を駆動するサンプルを選択するとともに、冗長性を低減するために多様性を強制する。
簡単なサンプルから難しいサンプルまで、カリキュラムの学習戦略と組み合わせることで、MiniRecはトレーニングコストを大幅に削減し、パフォーマンスをほぼ維持する。
大規模な実験はMiniRecの有効性を示し、RLベースのLLMレコメンデーションにおける報酬整合性、トラジェクトリインフォームドデータ選択の重要性を強調している。
関連論文リスト
- Sample-efficient LLM Optimization with Reset Replay [13.739451157239756]
Reset Replay (LoRR) は、任意の好みベースの最適化フレームワークにおいて、サンプリング効率を高めるために設計されたプラグインである。
LoRRは、ネットワークの可塑性を保存する初期データを再利用する定期的なリセット戦略を取り入れている。
実験により,LoRRは数学的および一般的な推論ベンチマークにおいて,様々な選好最適化手法の性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-08-08T15:56:49Z) - Direct Preference Optimization for LLM-Enhanced Recommendation Systems [33.54698201942643]
大規模言語モデル(LLM)は、幅広い領域で顕著なパフォーマンスを示している。
我々は,DPOをLLM強化レコメンデーションシステムに統合するフレームワークであるDPO4Recを提案する。
大規模な実験により、DPO4Recは強いベースラインよりも性能が大幅に向上した。
論文 参考訳(メタデータ) (2024-10-08T11:42:37Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。