論文の概要: Empirical Comparison of Forgetting Mechanisms for UCB-based Algorithms on a Data-Driven Simulation Platform
- arxiv url: http://arxiv.org/abs/2511.19240v1
- Date: Mon, 24 Nov 2025 15:52:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.28573
- Title: Empirical Comparison of Forgetting Mechanisms for UCB-based Algorithms on a Data-Driven Simulation Platform
- Title(参考訳): データ駆動型シミュレーションプラットフォームにおけるUPBアルゴリズムの蓄積機構の実証比較
- Authors: Minxin Chen,
- Abstract要約: 本稿では、ディスカウントに基づく長期視点とスライディングウインドウに基づく短期視点を統合した新しいデュアルビューアルゴリズムであるFDSW-UCBを紹介し、評価する。
ダイナミックな設定で優れたパフォーマンスを実現し、アンサンブル戦略自体が成功の決定的な要因であることを強調します。
- 参考スコア(独自算出の注目度): 0.16921396880325776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world bandit problems involve non-stationary reward distributions, where the optimal decision may shift due to evolving environments. However, the performance of some typical Multi-Armed Bandit (MAB) models such as Upper Confidence Bound (UCB) algorithms degrades significantly in non-stationary environments where reward distributions change over time. To address this limitation, this paper introduces and evaluates FDSW-UCB, a novel dual-view algorithm that integrates a discount-based long-term perspective with a sliding-window-based short-term view. A data-driven semi-synthetic simulation platform, built upon the MovieLens-1M and Open Bandit datasets, is developed to test algorithm adaptability under abrupt and gradual drift scenarios. Experimental results demonstrate that a well-configured sliding-window mechanism (SW-UCB) is robust, while the widely used discounting method (D-UCB) suffers from a fundamental learning failure, leading to linear regret. Crucially, the proposed FDSW-UCB, when employing an optimistic aggregation strategy, achieves superior performance in dynamic settings, highlighting that the ensemble strategy itself is a decisive factor for success.
- Abstract(参考訳): 多くの実世界のバンディット問題は、進化する環境によって最適な決定がシフトする非定常報酬分布を含む。
しかし、アッパー信頼境界(UCB)アルゴリズムのような典型的なマルチアーマッド帯域(MAB)モデルの性能は、報酬分布が時間とともに変化する非定常環境において著しく低下する。
本稿では,この制限に対処するために,ディスカウントに基づく長期視点とスライディングウインドウに基づく短期視点を統合した新しいデュアルビューアルゴリズムであるFDSW-UCBを紹介し,評価する。
MovieLens-1MとOpen Banditのデータセット上に構築されたデータ駆動半合成シミュレーションプラットフォームは、突然のドリフトシナリオと漸進的なドリフトシナリオ下でアルゴリズムの適応性をテストするために開発された。
実験により,よく構成されたスライディングウインドウ機構 (SW-UCB) が堅牢であること,また広く使用されているディスカウント方式 (D-UCB) が基本的な学習障害に悩まされ,線形後悔につながることを示した。
FDSW-UCBは、楽観的なアグリゲーション戦略を採用する際に、動的設定において優れた性能を達成し、アンサンブル戦略自体が成功の決定的な要因であることを強調した。
関連論文リスト
- Modest-Align: Data-Efficient Alignment for Vision-Language Models [67.48633659305592]
クロスモーダルアライメントモデルは、リソース制約のある環境での運用において、過信と劣化したパフォーマンスに悩まされることが多い。
我々は,ロバスト性と効率性に配慮した軽量アライメントフレームワークであるModest-Alignを提案する。
本手法は,実世界の低リソースシナリオにおけるクロスモーダルアライメントを実現するための,実用的でスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-24T16:11:10Z) - WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training [64.0932926819307]
本稿では,学習速度減衰とモデルマージの正式な関係を確立するフレームワークであるWarmup-Stable and Merge(WSM)を紹介する。
WSMは様々な崩壊戦略をエミュレートするための統一された理論基盤を提供する。
私たちのフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-07-23T16:02:06Z) - Offline Reinforcement Learning via Inverse Optimization [2.8037951156321372]
連続状態と行動空間のための新しいオフライン強化学習(ORL)アルゴリズムを提案する。
ORL問題でよく見られる分布変化を緩和するために、我々は頑健で非因果予測制御の専門家を用いる。
既存の文献と異なり、当社の堅牢なMPC専門家は、正確かつトラクタブルな凸修正を楽しみます。
論文 参考訳(メタデータ) (2025-02-27T12:11:44Z) - Offline Learning for Combinatorial Multi-armed Bandits [56.96242764723241]
Off-CMABはCMABの最初のオフライン学習フレームワークである。
Off-CMABは悲観的な報酬推定と解法を組み合わせる。
合成および実世界のデータセットの実験は、CLCBの優れた性能を強調している。
論文 参考訳(メタデータ) (2025-01-31T16:56:18Z) - Learning Dynamic Representations via An Optimally-Weighted Maximum Mean Discrepancy Optimization Framework for Continual Learning [16.10753846850319]
継続的な学習は、モデルを永続的に取得し、保持することを可能にする。
悲惨な忘れ物は モデルパフォーマンスを著しく損なう
本稿では,表現変更に対する罰則を課す,OPMMD(Optimally-Weighted Mean Discrepancy)と呼ばれる新しいフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-01-21T13:33:45Z) - Robust Reinforcement Learning under Diffusion Models for Data with Jumps [40.2559197706778]
本稿では,MSBVE(Mean-Square Bipower Variation Error)アルゴリズムを提案する。
我々はまず,連続時間RLで一般的に使用される平均平方TDエラー(MSTDE)アルゴリズムを再検討し,状態ダイナミクスのジャンプ処理における制限を強調した。
提案したMSBVEアルゴリズムは平均2乗2乗変動誤差を最小化し,ジャンプを伴うSDEを特徴とする環境におけるMSTDEよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-11-18T16:17:34Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。