論文の概要: Enhancing Bandit Algorithms with LLMs for Time-varying User Preferences in Streaming Recommendations
- arxiv url: http://arxiv.org/abs/2602.08067v1
- Date: Sun, 08 Feb 2026 17:48:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.965609
- Title: Enhancing Bandit Algorithms with LLMs for Time-varying User Preferences in Streaming Recommendations
- Title(参考訳): ストリーミングレコメンデーションにおける時間変化ユーザの嗜好に対するLLMを用いた帯域幅アルゴリズムの強化
- Authors: Chenglei Shen, Yi Zhan, Weijie Yu, Xiao Zhang, Jun Xu,
- Abstract要約: HyperBandit+は、タイムアウェアなハイパーネットワークを統合して、タイムアレンジされたユーザの好みに適応する、新しいバンディットポリシーである。
HyperBandit+は、蓄積された報酬の観点から、最先端のベースラインを一貫して上回っていることを示す。
- 参考スコア(独自算出の注目度): 10.190789989569085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real-world streaming recommender systems, user preferences evolve dynamically over time. Existing bandit-based methods treat time merely as a timestamp, neglecting its explicit relationship with user preferences and leading to suboptimal performance. Moreover, online learning methods often suffer from inefficient exploration-exploitation during the early online phase. To address these issues, we propose HyperBandit+, a novel contextual bandit policy that integrates a time-aware hypernetwork to adapt to time-varying user preferences and employs a large language model-assisted warm-start mechanism (LLM Start) to enhance exploration-exploitation efficiency in the early online phase. Specifically, HyperBandit+ leverages a neural network that takes time features as input and generates parameters for estimating time-varying rewards by capturing the correlation between time and user preferences. Additionally, the LLM Start mechanism employs multi-step data augmentation to simulate realistic interaction data for effective offline learning, providing warm-start parameters for the bandit policy in the early online phase. To meet real-time streaming recommendation demands, we adopt low-rank factorization to reduce hypernetwork training complexity. Theoretically, we rigorously establish a sublinear regret upper bound that accounts for both the hypernetwork and the LLM warm-start mechanism. Extensive experiments on real-world datasets demonstrate that HyperBandit+ consistently outperforms state-of-the-art baselines in terms of accumulated rewards.
- Abstract(参考訳): 実世界のストリーミングレコメンデーションシステムでは、ユーザの好みは時間とともに動的に進化する。
既存のバンディットベースの手法は、時間をタイムスタンプとして扱うだけで、ユーザの好みとの明確な関係を無視し、最適以下のパフォーマンスをもたらす。
さらに、オンライン学習手法は、初期のオンラインフェーズにおいて、探索と探索の効率の悪さに悩まされることが多い。
これらの問題に対処するため,我々は,タイムアウェアなハイパーネットワークをタイムアウェアなハイパーネットワークに統合して,ユーザの好みに適応し,大規模言語モデル支援型ウォームスタート機構(LLM Start)を用いて,初期のオンラインフェーズにおける探索・探索効率を向上させる,新しいコンテキスト的バンディットポリシーであるHyperBandit+を提案する。
具体的には、HyperBandit+は、時間の特徴を入力として取り込むニューラルネットワークを活用し、時間とユーザの好みの相関をキャプチャすることで、時間変化報酬を推定するためのパラメータを生成する。
さらに、LLM Startメカニズムは、マルチステップデータ拡張を使用して、効果的なオフライン学習のための現実的なインタラクションデータをシミュレートし、オンライン初期におけるバンディットポリシーのウォームスタートパラメータを提供する。
リアルタイムストリーミングレコメンデーションの要求を満たすため、ハイパーネットワークトレーニングの複雑さを低減するために、低ランクの分解を採用する。
理論的には、ハイパーネットワークとLLMウォームスタート機構の両方を考慮に入れたサブ線形後悔上限を厳格に確立する。
実世界のデータセットに対する大規模な実験により、HyperBandit+は蓄積された報酬の観点から、最先端のベースラインを一貫して上回っていることが示された。
関連論文リスト
- STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - Offline Critic-Guided Diffusion Policy for Multi-User Delay-Constrained Scheduling [29.431945795881976]
本稿では,新しいオフライン強化学習アルゴリズムである underlineScheduling を提案する。
プリコンパイルされたEmphofflineデータから、効率的なスケジューリングポリシを純粋に学習する。
我々は、SOCDは、部分的に観測可能で大規模な環境を含む、様々なシステム力学に耐性があることを示します。
論文 参考訳(メタデータ) (2025-01-22T15:13:21Z) - PreMixer: MLP-Based Pre-training Enhanced MLP-Mixers for Large-scale Traffic Forecasting [30.055634767677823]
都市コンピューティングでは,交通ネットワークからの時系列データの正確かつ迅速な予測が重要である。
現在の研究制限は、モデル固有の非効率性と、モデル複雑さによる大規模トラフィックアプリケーションに対する不適合性のためである。
本稿では,このギャップを埋めるための新しいフレームワークPreMixerを提案する。MLP(Multi-Layer Perceptrons)の原理に基づく予測モデルと事前学習機構を特徴とする。
我々のフレームワークは,大規模トラフィックデータセットの広範な実験により検証され,高い計算効率を維持しながら,同等の最先端性能を実現している。
論文 参考訳(メタデータ) (2024-12-18T08:35:40Z) - Reprogramming Foundational Large Language Models(LLMs) for Enterprise Adoption for Spatio-Temporal Forecasting Applications: Unveiling a New Era in Copilot-Guided Cross-Modal Time Series Representation Learning [0.0]
パティオ時間予測は、輸送システム、物流、サプライチェーン管理など、様々な分野において重要な役割を担っている。
本稿では,オープンソースの大規模・小規模言語モデル(LLM,LM)と従来の予測手法を組み合わせたハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-08-26T16:11:53Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - HyperBandit: Contextual Bandit with Hypernewtork for Time-Varying User
Preferences in Streaming Recommendation [11.908362247624131]
既存のストリーミングレコメンデータモデルはタイムスタンプとしてのみ考慮している。
我々はHyperBanditと呼ばれるハイパーネットワークを用いたコンテキスト的バンディット手法を提案する。
提案したHyperBanditは、蓄積された報酬の観点から、最先端のベースラインを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-08-14T14:04:57Z) - Dynamic Scheduling for Federated Edge Learning with Streaming Data [56.91063444859008]
我々は,長期的エネルギー制約のある分散エッジデバイスにおいて,トレーニングデータを時間とともにランダムに生成するフェデレーションエッジ学習(FEEL)システムを検討する。
限られた通信リソースとレイテンシ要件のため、各イテレーションでローカルトレーニングプロセスに参加するのはデバイスのサブセットのみである。
論文 参考訳(メタデータ) (2023-05-02T07:41:16Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。