論文の概要: Combinatorial Rising Bandit
- arxiv url: http://arxiv.org/abs/2412.00798v3
- Date: Thu, 29 May 2025 10:32:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 15:42:32.793203
- Title: Combinatorial Rising Bandit
- Title(参考訳): Combinatorial Rising Bandit
- Authors: Seockbean Song, Youngsik Yoon, Siwei Wang, Wei Chen, Jungseul Ok,
- Abstract要約: 我々は, Combinatorial Rising Bandit (CRB) フレームワークを導入し,証明可能なアルゴリズムである Combinatorial Rising Up Confidence Bound (CRUCB) を提案する。
我々は,CRUCBの有効性を,合成環境だけでなく,深層強化学習の現実的応用においても実証的に実証した。
- 参考スコア(独自算出の注目度): 29.357803270943254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Combinatorial online learning is a fundamental task for selecting the optimal action (or super arm) as a combination of base arms in sequential interactions with systems providing stochastic rewards. It is applicable to diverse domains such as robotics, social advertising, network routing, and recommendation systems. In many real-world scenarios, we often encounter rising rewards, where playing a base arm not only provides an instantaneous reward but also contributes to the enhancement of future rewards, e.g., robots enhancing proficiency through practice and social influence strengthening in the history of successful recommendations. Moreover, the enhancement of a single base arm may affect multiple super arms that include it, introducing complex dependencies that are not captured by existing rising bandit models. To address this, we introduce the Combinatorial Rising Bandit (CRB) framework and propose a provably efficient algorithm, Combinatorial Rising Upper Confidence Bound (CRUCB). We establish an upper bound on regret CRUCB and show that it is nearly tight by deriving a matching lower bound. In addition, we empirically demonstrate the effectiveness of CRUCB not only in synthetic environments but also in realistic applications of deep reinforcement learning.
- Abstract(参考訳): 組合せオンライン学習は、確率的な報酬を提供するシステムとの逐次的な相互作用におけるベースアームの組み合わせとして、最適なアクション(またはスーパーアーム)を選択するための基本的なタスクである。
ロボット工学、ソーシャル広告、ネットワークルーティング、レコメンデーションシステムといった多様な分野に適用できる。
多くの現実のシナリオでは、しばしば報酬の上昇に遭遇し、ベースアームの演奏は即時報酬を提供するだけでなく、将来の報酬の強化にも貢献する。
さらに、単一のベースアームの強化は、それを含む複数のスーパーアームに影響を与える可能性があり、既存の立ち上がりバンディットモデルでは捉えられない複雑な依存関係を導入する。
そこで本稿では,Y Combinatorial Rising Bandit (CRB) フレームワークを導入し,効率の良いアルゴリズムである Combinatorial Rising Upper Confidence Bound (CRUCB) を提案する。
我々は, 後悔のCRUCBの上界を確立し, 一致した下界を導出することによって, ほぼ緊密であることを示す。
さらに,CRUCBの有効性を,合成環境だけでなく,深層強化学習の現実的応用においても実証的に実証した。
関連論文リスト
- Recursive Deep Inverse Reinforcement Learning [16.05411507856928]
対向計画や非協調型マルチエージェントシステムにおいては,相手の行動から相手の目標を推定することが重要である。
本稿では, 対向行動と目標を管理する費用関数を復元するオンライン逆強化学習(RDIRL)手法を提案する。
論文 参考訳(メタデータ) (2025-04-17T17:39:35Z) - Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題 優雅にアマルガメートは、最小化とBAIを後悔している。
エージェントの目標は、所定の信頼度で最高の腕を特定することである。
二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文 参考訳(メタデータ) (2024-09-27T16:46:02Z) - Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Bayesian Regret Minimization in Offline Bandits [35.7981453841683]
オフライン線形包帯におけるベイズ的後悔を最小限に抑える決定の仕方について検討する。
LCBへの依存は本質的にこの設定に欠陥がある、と我々は主張する。
我々の限界は金融リスク対策への新たなつながりに大きく依存している。
論文 参考訳(メタデータ) (2023-06-02T02:05:02Z) - Anti-Exploration by Random Network Distillation [63.04360288089277]
ランダムネットワーク蒸留 (RND) の条件付けは, 不確実性推定器として用いるのに十分な識別性がないことを示す。
この制限は、FiLM(Feature-wise Linear Modulation)に基づく条件付けによって回避できることを示す。
D4RLベンチマークで評価したところ、アンサンブルベースの手法に匹敵する性能を達成でき、アンサンブルのない手法よりも広いマージンで性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-01-31T13:18:33Z) - Contextual bandits with concave rewards, and an application to fair
ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。
我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。
推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文 参考訳(メタデータ) (2022-10-18T16:11:55Z) - Versatile Dueling Bandits: Best-of-both-World Analyses for Online
Learning from Preferences [28.79598714109439]
両環境および敵環境における$K$武器のデュエルバンディットの問題について検討する。
まず,マルチアームのバンディットに対して,任意の(一般的な)デュエル・バンドレットから新たなリダクションを提案する。
提案アルゴリズムは,コンドルチェット・ウィンナーベンチマークに対して最適な$O(sum_i = 1K fraclog TDelta_i)$ regret boundを達成した最初のアルゴリズムでもある。
論文 参考訳(メタデータ) (2022-02-14T13:37:23Z) - Robust Upper Bounds for Adversarial Training [4.971729553254843]
敵の損失の上限を最小化することで、敵の訓練に新たなアプローチを導入する。
このバウンダリは、各レイヤの別々のバウンダリではなく、ネットワークの全体的拡張に基づいている。
提案手法により2つの新しい手法を導出する。
論文 参考訳(メタデータ) (2021-12-17T01:52:35Z) - Instance-Dependent Complexity of Contextual Bandits and Reinforcement
Learning: A Disagreement-Based Perspective [104.67295710363679]
古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。
我々は、インスタンス依存の後悔境界を得るのに十分かつ必要である複雑性尺度のファミリーを導入する。
次に、可能な限りギャップに適応する新しいオラクル効率アルゴリズムを導入し、最悪の場合にはミニマックスレートを得る。
論文 参考訳(メタデータ) (2020-10-07T01:33:06Z) - Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。
我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。
特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文 参考訳(メタデータ) (2019-11-20T03:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。