論文の概要: Rising Multi-Armed Bandits with Known Horizons
- arxiv url: http://arxiv.org/abs/2602.10727v1
- Date: Wed, 11 Feb 2026 10:41:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.769459
- Title: Rising Multi-Armed Bandits with Known Horizons
- Title(参考訳): ホライズンを用いたマルチアーマッドバンドのライジング
- Authors: Seockbean Song, Chenyu Gan, Youngsik Yoon, Siwei Wang, Wei Chen, Jungseul Ok,
- Abstract要約: 地平線を明示的に統合した新しい計算的逆推定 UCB (CURE-UCB) を提案する。
我々は,新たな後悔の上限を確立する厳密な分析を行い,その方法が地平線に依存しない戦略を厳密に上回っていることを証明した。
- 参考スコア(独自算出の注目度): 24.580069653440347
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The Rising Multi-Armed Bandit (RMAB) framework models environments where expected rewards of arms increase with plays, which models practical scenarios where performance of each option improves with the repeated usage, such as in robotics and hyperparameter tuning. For instance, in hyperparameter tuning, the validation accuracy of a model configuration (arm) typically increases with each training epoch. A defining characteristic of RMAB is em horizon-dependent optimality: unlike standard settings, the optimal strategy here shifts dramatically depending on the available budget $T$. This implies that knowledge of $T$ yields significantly greater utility in RMAB, empowering the learner to align its decision-making with this shifting optimality. However, the horizon-aware setting remains underexplored. To address this, we propose a novel CUmulative Reward Estimation UCB (CURE-UCB) that explicitly integrates the horizon. We provide a rigorous analysis establishing a new regret upper bound and prove that our method strictly outperforms horizon-agnostic strategies in structured environments like ``linear-then-flat'' instances. Extensive experiments demonstrate its significant superiority over baselines.
- Abstract(参考訳): Rising Multi-Armed Bandit (RMAB)フレームワークは、ロボット工学やハイパーパラメータチューニングなど、各オプションのパフォーマンスが繰り返し使用されるように、現実的なシナリオをモデル化する。
例えば、ハイパーパラメータチューニングでは、モデル構成(arm)の検証精度は通常、各トレーニングエポックで増加する。
RMABの定義上の特徴は、水平方向に依存した最適性である:標準設定とは異なり、ここでの最適戦略は、利用可能な予算に応じて劇的にシフトする。
このことは、$T$の知識はRMABにおいて非常に大きな有用性をもたらし、学習者が決定をこのシフトする最適性と整合させる力を与えることを意味する。
しかし、地平線を意識した設定は未定のままである。
そこで本稿では, 水平線を明示的に統合した新しい計算逆推定 UCB (CURE-UCB) を提案する。
本手法は,<linear-then-flat' インスタンスのような構造化環境における地平線に依存しない戦略を厳格に上回っていることを証明し,新たな後悔の上限を確立する厳密な分析を行う。
大規模な実験は、ベースラインよりも大きな優位性を示す。
関連論文リスト
- Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training [29.56905427210088]
Gragient-ARMは、好みのフィードバックから強化学習を使用するルーリックジェネレータとジャッジを共同で最適化するフレームワークである。
ベンチマークのベースライン間で、勾配-ARMは最先端のパフォーマンスを達成し、オフラインおよびオンラインの強化学習設定において、ダウンストリームポリシーアライメントを大幅に改善することを示す。
論文 参考訳(メタデータ) (2026-02-02T00:50:53Z) - How to Set the Learning Rate for Large-Scale Pre-training? [73.03133634525635]
我々はこの調査を2つの異なる研究パラダイムであるフィッティングとトランスファーに定式化する。
フィッティングパラダイムでは,探索係数のスケーリング法則を導入し,O(n3) から O(n*C_D*C_) への探索複雑性を予測モデルにより効果的に低減する。
我々は、$Transferの原則をMixture of Experts (MoE)アーキテクチャに拡張し、モデル深さ、重量減衰、トークン水平線を含む適用範囲を広げる。
論文 参考訳(メタデータ) (2026-01-08T15:55:13Z) - Reinforcement Learning for Option Hedging: Static Implied-Volatility Fit versus Shortfall-Aware Performance [7.793044742733676]
我々は、リスク回避とトレーディングコストを組み込むことで、QLBSフレームワークのQ-learnerを拡張する。
本稿では,RLOP(Replication Learning of Option Pricing)アプローチを提案する。
論文 参考訳(メタデータ) (2026-01-05T01:02:41Z) - Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。
Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-12-25T06:31:11Z) - Empirical Comparison of Forgetting Mechanisms for UCB-based Algorithms on a Data-Driven Simulation Platform [0.16921396880325776]
本稿では、ディスカウントに基づく長期視点とスライディングウインドウに基づく短期視点を統合した新しいデュアルビューアルゴリズムであるFDSW-UCBを紹介し、評価する。
ダイナミックな設定で優れたパフォーマンスを実現し、アンサンブル戦略自体が成功の決定的な要因であることを強調します。
論文 参考訳(メタデータ) (2025-11-24T15:52:02Z) - Direct Regret Optimization in Bayesian Optimization [10.705151736050967]
本稿では,最適モデルと非明視的獲得を共同で学習する,新たな直訳最適化手法を提案する。
提案手法はBOベースラインを一貫して上回り,より単純な後悔を減らし,より堅牢な探索を示す。
論文 参考訳(メタデータ) (2025-07-09T04:09:58Z) - Learning Dynamic Representations via An Optimally-Weighted Maximum Mean Discrepancy Optimization Framework for Continual Learning [16.10753846850319]
継続的な学習は、モデルを永続的に取得し、保持することを可能にする。
悲惨な忘れ物は モデルパフォーマンスを著しく損なう
本稿では,表現変更に対する罰則を課す,OPMMD(Optimally-Weighted Mean Discrepancy)と呼ばれる新しいフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-01-21T13:33:45Z) - Best Arm Identification for Stochastic Rising Bandits [84.55453174601826]
SRB(Rising Bandits)は、選択される度に選択肢の期待される報酬が増加する、シーケンシャルな意思決定の問題をモデル化する。
本稿では,SRBの固定予算ベストアーム識別(BAI)問題に焦点をあてる。
R-UCBE と R-SR の2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-15T08:01:37Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。