論文の概要: Optimization of Epsilon-Greedy Exploration
- arxiv url: http://arxiv.org/abs/2506.03324v1
- Date: Tue, 03 Jun 2025 19:14:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.021633
- Title: Optimization of Epsilon-Greedy Exploration
- Title(参考訳): エプシロン-グリード探査の最適化
- Authors: Ethan Che, Hakan Ceylan, James McInerney, Nathan Kallus,
- Abstract要約: その結果,バッチサイズの変化が最適な探索戦略に大きく影響していることが判明した。
提案手法は,特定の問題設定に対する探索を自動調整し,各設定に最適なマッチングや性能を連続的に達成する。
- 参考スコア(独自算出の注目度): 35.9674180611893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern recommendation systems rely on exploration to learn user preferences for new items, typically implementing uniform exploration policies (e.g., epsilon-greedy) due to their simplicity and compatibility with machine learning (ML) personalization models. Within these systems, a crucial consideration is the rate of exploration - what fraction of user traffic should receive random item recommendations and how this should evolve over time. While various heuristics exist for navigating the resulting exploration-exploitation tradeoff, selecting optimal exploration rates is complicated by practical constraints including batched updates, time-varying user traffic, short time horizons, and minimum exploration requirements. In this work, we propose a principled framework for determining the exploration schedule based on directly minimizing Bayesian regret through stochastic gradient descent (SGD), allowing for dynamic exploration rate adjustment via Model-Predictive Control (MPC). Through extensive experiments with recommendation datasets, we demonstrate that variations in the batch size across periods significantly influence the optimal exploration strategy. Our optimization methods automatically calibrate exploration to the specific problem setting, consistently matching or outperforming the best heuristic for each setting.
- Abstract(参考訳): 現代のレコメンデーションシステムは、機械学習(ML)パーソナライゼーションモデルとの単純さと互換性のため、通常、統一的な探索ポリシー(例えば、epsilon-greedy)を実装している。
これらのシステムの中で重要な考慮事項は、探索の速度である - ランダムなアイテムレコメンデーションを受けるユーザトラフィックの何パーセントか、時間とともにどのように進化するか。
探索・探索のトレードオフをナビゲートするための様々なヒューリスティックは存在するが、バッチ更新、時間変化のあるユーザトラフィック、短時間の地平線、最小の探査要件を含む実用的な制約により、最適な探索率を選択することは複雑である。
本研究では,確率勾配降下 (SGD) によるベイズ的後悔を直接最小化し,モデル予測制御 (MPC) による動的探索率調整を可能にする,探索スケジュールを決定するための基本的枠組みを提案する。
推奨データセットを用いた広範な実験を通して、バッチサイズの変化が最適な探索戦略に大きな影響を及ぼすことを示した。
最適化手法は、特定の問題設定に対する探索を自動的に調整し、各設定に最適なヒューリスティックを一貫してマッチングまたは性能向上させる。
関連論文リスト
- Exploiting Prior Knowledge in Preferential Learning of Individualized Autonomous Vehicle Driving Styles [41.94295877935867]
自動車両の軌道計画では、一般的に移動地平線上を最適化するモデル予測制御を用いる。
乗客に好まれる運転スタイルをもたらす適切なコスト関数を見つけることは、現在進行中の課題である。
我々は、乗客の好みを反復的にクエリすることでコスト関数の学習に優先的なベイズ最適化を用いる。
論文 参考訳(メタデータ) (2025-03-19T16:47:56Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Prompt-Tuning Decision Transformer with Preference Ranking [83.76329715043205]
本稿では,環境情報取得におけるRLエージェントの誘導手法としてトラジェクトリセグメントを用いたPrompt-Tuning DTアルゴリズムを提案する。
提案手法では,ガウス分布をランダムにサンプリングしてプロンプト軌道の要素を微調整し,選好ランク関数を用いて最適化方向を求める。
我々の研究は、RLにおける迅速な調整手法の進歩に寄与し、特定の選好タスクに対して大規模RLエージェントを最適化するための有望な方向性を提供する。
論文 参考訳(メタデータ) (2023-05-16T17:49:04Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Autonomous UAV Exploration of Dynamic Environments via Incremental
Sampling and Probabilistic Roadmap [0.3867363075280543]
インクリメンタルサンプリングと確率的ロードマップ(PRM)を用いた未知環境探索のための新しい動的探索プランナ(DEP)を提案する。
本手法は, 動的環境を安全に探索し, 探索時間, 経路長, 計算時間でベンチマークプランナーより優れている。
論文 参考訳(メタデータ) (2020-10-14T22:52:37Z) - Localized active learning of Gaussian process state space models [63.97366815968177]
多くの共通制御アプリケーションにおいて、優れた性能を達成するためには、グローバルに正確なモデルを必要としない。
本稿では,状態-作用空間の有界部分集合上の正確なモデルを得ることを目的としたガウス過程状態空間モデルに対する能動的学習戦略を提案する。
モデル予測制御を用いることで、探索中に収集した情報を統合し、探索戦略を適応的に改善する。
論文 参考訳(メタデータ) (2020-05-04T05:35:02Z) - Dynamic Subgoal-based Exploration via Bayesian Optimization [7.297146495243708]
スパース・リワードナビゲーション環境における強化学習は困難であり、効果的な探索の必要性を生じさせる。
本稿では,動的サブゴールに基づく探索手法のクラスを効率的に探索する,費用対効果を考慮したベイズ最適化手法を提案する。
実験により、新しいアプローチは、多くの問題領域で既存のベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2019-10-21T04:24:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。