論文の概要: A single algorithm for both restless and rested rotting bandits
- arxiv url: http://arxiv.org/abs/2604.21432v1
- Date: Thu, 23 Apr 2026 08:48:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.392229
- Title: A single algorithm for both restless and rested rotting bandits
- Title(参考訳): レストレスおよびレストローティングバンディットのための1つのアルゴリズム
- Authors: Julien Seznec, Pierre Ménard, Alessandro Lazaric, Michal Valko,
- Abstract要約: 本稿では,ロッティング・アダプティブ・ウインドウUCBというアルゴリズムを導入し,ロッティング・レストとレスト・バンディットの両面において,ほぼ最適の後悔を実現する。
これは、報酬が増加するとアルゴリズムが同様の結果を得ることができないことを示す以前の否定的な結果とは対照的である。
- 参考スコア(独自算出の注目度): 65.63283411693489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many application domains (e.g., recommender systems, intelligent tutoring systems), the rewards associated to the actions tend to decrease over time. This decay is either caused by the actions executed in the past (e.g., a user may get bored when songs of the same genre are recommended over and over) or by an external factor (e.g., content becomes outdated). These two situations can be modeled as specific instances of the rested and restless bandit settings, where arms are rotting (i.e., their value decrease over time). These problems were thought to be significantly different, since Levine et al. (2017) showed that state-of-the-art algorithms for restless bandit perform poorly in the rested rotting setting. In this paper, we introduce a novel algorithm, Rotting Adaptive Window UCB (RAW-UCB), that achieves near-optimal regret in both rotting rested and restless bandit, without any prior knowledge of the setting (rested or restless) and the type of non-stationarity (e.g., piece-wise constant, bounded variation). This is in striking contrast with previous negative results showing that no algorithm can achieve similar results as soon as rewards are allowed to increase. We confirm our theoretical findings on a number of synthetic and dataset-based experiments.
- Abstract(参考訳): 多くのアプリケーション・ドメイン(例えばレコメンデータ・システム、インテリジェント・チュータリング・システム)では、アクションに関連する報酬は時間の経過とともに減少する傾向にある。
この崩壊は、過去に実行された動作(例えば、同じジャンルの曲が何度も推奨されると退屈になる)や外部要因(例えば、コンテンツが時代遅れになる)によって引き起こされる。
これらの2つの状況は、腕が腐っている(つまり、その値は時間とともに減少する)休息状態と休息状態のバンディット設定の特定の例としてモデル化することができる。
Levine et al (2017) は、レストレスバンディットのための最先端のアルゴリズムは、レストローティング環境では性能が良くないことを示した。
本稿では,ロッティング・アダプティブ・ウィンドウ(RAW-UCB)という新しいアルゴリズムを導入し,ロッティング・レストとレスト・バンディットの双方において,設定(レスト・レスト・レスト)と非定常性(例えば,部分的定数,有界変動)について事前の知識を伴わずに,ほぼ最適の後悔を実現する。
これは、報酬が増加するとアルゴリズムが同様の結果を得ることができないことを示す以前の否定的な結果とは対照的である。
我々は,多くの合成およびデータセットに基づく実験に関する理論的知見を確認した。
関連論文リスト
- Bridging Rested and Restless Bandits with Graph-Triggering: Rising and Rotting [67.1631453378926]
Graph-Triggered Banditsは、安静と安静のバンディットを一般化するフレームワークである。
本研究は,2種類の単調包帯に焦点をあてる: 立ち上がり, 腕の期待される報酬が増加する, 引き金の数が増える, 回転する, 反対の行動が起こる。
論文 参考訳(メタデータ) (2024-09-09T18:23:07Z) - An Adaptive Approach for Infinitely Many-armed Bandits under Generalized Rotting Constraints [29.596684377841182]
本研究では、休息状態において、アームの平均報酬が各プルで減少する可能性があるが、そうでなければ変化しない、無限に多くの武器を持つバンディット問題を考察する。
本稿では,ゆがみ報酬に起因するバイアスや分散トレードオフを管理するために,適応的なスライディングウィンドウを備えたUTBを利用するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:11:54Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - The price of unfairness in linear bandits with biased feedback [62.25313751895011]
線形帯域フィードバックによる逐次意思決定の問題点について検討する。
その結果,不偏フィードバック下で得られたdT 1/2 log(T) の後悔率よりも最悪の後悔率が高いことがわかった。
興味深いことに、ギャップ依存率によって、問題はバイアスのないものほど難しくない非自明なインスタンスの存在が明らかになる。
論文 参考訳(メタデータ) (2022-03-18T08:03:20Z) - Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous
Feedback [32.62857394584907]
複合および匿名フィードバックによるマルチアームバンディット(MAB)問題を研究する。
本稿では,逆の場合と非逆の場合の適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-13T12:25:41Z) - Lenient Regret for Multi-Armed Bandits [72.56064196252498]
エージェントが順番に行動を選択し、その行動に対する報酬を観察するマルチアーマッド・バンディット(MAB)問題を考察する。
アルゴリズムの大多数は、後悔、すなわち最高の行動の報酬とエージェントの行動の累積的な差を最小化しようとするが、この基準は望ましくない結果をもたらすかもしれない。
我々は、いくつかの$epsilon$よりも小さな最適性ギャップを無視した、より寛大で寛大で後悔すべき基準を提案する。
論文 参考訳(メタデータ) (2020-08-10T08:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。