論文の概要: Combinatorial Rising Bandit
- arxiv url: http://arxiv.org/abs/2412.00798v1
- Date: Sun, 01 Dec 2024 12:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:50:23.464041
- Title: Combinatorial Rising Bandit
- Title(参考訳): Combinatorial Rising Bandit
- Authors: Seockbean Song, Youngsik Yoon, Siwei Wang, Wei Chen, Jungseul Ok,
- Abstract要約: 我々は,政策後悔を最小限に抑えるために,帯域の増大という問題を提起し,コンビネーション・ライジング・アッパー・信頼境界 (CRUCB) と呼ばれる証明可能なアルゴリズムを提案する。
CRUCBは、後悔の上限が後悔の下限に近いことを示すことにより、確実に効率的である。
さらに,CRUCBの有効性と優位性を,合成環境だけでなく,深層強化学習の現実的応用においても実証的に実証した。
- 参考スコア(独自算出の注目度): 29.357803270943254
- License:
- Abstract: Combinatorial online learning is a fundamental task to decide the optimal combination of base arms in sequential interactions with systems providing uncertain rewards, which is applicable to diverse domains such as robotics, social advertising, network routing and recommendation systems. In real-world scenarios, we often observe rising rewards, where the selection of a base arm not only provides an instantaneous reward but also contributes to the enhancement of future rewards, {\it e.g.}, robots enhancing proficiency through practice and social influence strengthening in the history of successful recommendations. To address this, we introduce the problem of combinatorial rising bandit to minimize policy regret and propose a provably efficient algorithm, called Combinatorial Rising Upper Confidence Bound (CRUCB), of which regret upper bound is close to a regret lower bound. To the best of our knowledge, previous studies do not provide a sub-linear regret lower bound, making it impossible to assess the efficiency of their algorithms. However, we provide the sub-linear regret lower bound for combinatorial rising bandit and show that CRUCB is provably efficient by showing that the regret upper bound is close to the regret lower bound. In addition, we empirically demonstrate the effectiveness and superiority of CRUCB not only in synthetic environments but also in realistic applications of deep reinforcement learning.
- Abstract(参考訳): 組合せオンライン学習は、ロボット工学、ソーシャル広告、ネットワークルーティング、レコメンデーションシステムといった様々な分野に適用可能な、不確実な報酬を提供するシステムとの逐次的な相互作用におけるベースアームの最適な組み合わせを決定するための基本的なタスクである。
実世界のシナリオでは、しばしば報酬の上昇を観察し、ベースアームの選択は即時報酬を提供するだけでなく、将来の報酬の強化にも寄与する。
これを解決するために、政策後悔を最小限に抑えるために組合せ的上昇帯域の問題を導入し、後悔の上界が後悔の低い下界に近くなる「コンビネーション・ライジング・アッパー・信頼境界」(CRUCB)と呼ばれる証明可能なアルゴリズムを提案する。
我々の知識を最大限に活用するために、過去の研究では、サブリニアな後悔の少ない境界を提供しておらず、アルゴリズムの効率を評価することは不可能である。
しかし, 組合せ的上昇バンディットに対するサブ線形後悔下限を提示し, 後悔上限が後悔下限に近いことを示すことにより, CRUCBが有効であることを示す。
さらに,CRUCBの有効性と優位性を,合成環境だけでなく,深層強化学習の現実的応用においても実証的に実証した。
関連論文リスト
- Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題 優雅にアマルガメートは、最小化とBAIを後悔している。
エージェントの目標は、所定の信頼度で最高の腕を特定することである。
二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文 参考訳(メタデータ) (2024-09-27T16:46:02Z) - Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Improving Reward-Conditioned Policies for Multi-Armed Bandits using Normalized Weight Functions [8.90692770076582]
最近提案された報酬条件付き政策(RCP)は、強化学習において魅力的な代替手段を提供する。
従来の手法と比較して,RCPは収束が遅く,収束時に期待される報酬が劣っていることを示す。
我々は、この手法を一般化された余分化と呼び、その利点は、低い報酬に条件付けられた政策に対する負の重み付けが、結果の政策をそれらとより区別することができることである。
論文 参考訳(メタデータ) (2024-06-16T03:43:55Z) - Anti-Exploration by Random Network Distillation [63.04360288089277]
ランダムネットワーク蒸留 (RND) の条件付けは, 不確実性推定器として用いるのに十分な識別性がないことを示す。
この制限は、FiLM(Feature-wise Linear Modulation)に基づく条件付けによって回避できることを示す。
D4RLベンチマークで評価したところ、アンサンブルベースの手法に匹敵する性能を達成でき、アンサンブルのない手法よりも広いマージンで性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-01-31T13:18:33Z) - Contextual bandits with concave rewards, and an application to fair
ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。
我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。
推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文 参考訳(メタデータ) (2022-10-18T16:11:55Z) - Versatile Dueling Bandits: Best-of-both-World Analyses for Online
Learning from Preferences [28.79598714109439]
両環境および敵環境における$K$武器のデュエルバンディットの問題について検討する。
まず,マルチアームのバンディットに対して,任意の(一般的な)デュエル・バンドレットから新たなリダクションを提案する。
提案アルゴリズムは,コンドルチェット・ウィンナーベンチマークに対して最適な$O(sum_i = 1K fraclog TDelta_i)$ regret boundを達成した最初のアルゴリズムでもある。
論文 参考訳(メタデータ) (2022-02-14T13:37:23Z) - Robust Upper Bounds for Adversarial Training [4.971729553254843]
敵の損失の上限を最小化することで、敵の訓練に新たなアプローチを導入する。
このバウンダリは、各レイヤの別々のバウンダリではなく、ネットワークの全体的拡張に基づいている。
提案手法により2つの新しい手法を導出する。
論文 参考訳(メタデータ) (2021-12-17T01:52:35Z) - Instance-Dependent Complexity of Contextual Bandits and Reinforcement
Learning: A Disagreement-Based Perspective [104.67295710363679]
古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。
我々は、インスタンス依存の後悔境界を得るのに十分かつ必要である複雑性尺度のファミリーを導入する。
次に、可能な限りギャップに適応する新しいオラクル効率アルゴリズムを導入し、最悪の場合にはミニマックスレートを得る。
論文 参考訳(メタデータ) (2020-10-07T01:33:06Z) - Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。
我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。
特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文 参考訳(メタデータ) (2019-11-20T03:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。