論文の概要: Regression Oracles and Exploration Strategies for Short-Horizon
Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2102.05263v1
- Date: Wed, 10 Feb 2021 04:58:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-11 14:54:01.432114
- Title: Regression Oracles and Exploration Strategies for Short-Horizon
Multi-Armed Bandits
- Title(参考訳): 短期Horizonマルチアレイバンドの回帰オラクルと探索戦略
- Authors: Robert C. Gray, Jichen Zhu, Santiago Onta\~n\'on
- Abstract要約: これはMAB文学における未研究の設定であり、プレイヤーモデリングのようなゲームの文脈で多くの応用がある。
エプシロングレーディのような戦略で用いられる単純な平均を線形回帰モデルに置き換える回帰オラクルの利用について検討する。
第2に,強制探査フェーズなどの異なる探索パターンについて検討する。
最後に,UCBT と呼ばれる UCB1 戦略の新たな変種を導入する。
- 参考スコア(独自算出の注目度): 8.164433158925593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores multi-armed bandit (MAB) strategies in very short horizon
scenarios, i.e., when the bandit strategy is only allowed very few interactions
with the environment. This is an understudied setting in the MAB literature
with many applications in the context of games, such as player modeling.
Specifically, we pursue three different ideas. First, we explore the use of
regression oracles, which replace the simple average used in strategies such as
epsilon-greedy with linear regression models. Second, we examine different
exploration patterns such as forced exploration phases. Finally, we introduce a
new variant of the UCB1 strategy called UCBT that has interesting properties
and no tunable parameters. We present experimental results in a domain
motivated by exergames, where the goal is to maximize a player's daily steps.
Our results show that the combination of epsilon-greedy or epsilon-decreasing
with regression oracles outperforms all other tested strategies in the short
horizon setting.
- Abstract(参考訳): 本稿は,マルチアーム・バンディット(MAB)戦略を極めて短い地平線シナリオ,すなわち,バンディット戦略が環境との相互作用をほとんど許さない場合に検討する。
これは、プレイヤーモデリングなどのゲームの文脈で多くのアプリケーションを持つMAB文学の学習されていない設定です。
具体的には3つの異なるアイデアを追求します
まず,epsilon-greedyのような戦略で用いられる単純な平均を線形回帰モデルに置き換える回帰オラクルの利用について検討する。
第2に,強制探査フェーズなどの異なる探索パターンについて検討する。
最後に, 興味深い特性を持ち, 可変パラメータも持たない, ucbt と呼ばれる ucb1 戦略の新たな変種を紹介する。
プレイヤーの日常的なステップを最大化することを目的として,エクセルゲームに動機づけられた領域で実験結果を示す。
Epsilon-greedy と Epsilon-deducing と Regression oracles の組み合わせが, 短い地平線設定における他のすべてのテスト戦略を上回っていることを示した。
関連論文リスト
- Paths to Equilibrium in Games [6.812247730094933]
我々は、強化学習におけるポリシー更新に触発されたペアワイズ制約を満たす戦略の列について研究する。
我々の分析は、戦略的な更新を劣化させる報酬が、満足のいく道に沿って均衡に進むための鍵である、という直感的な洞察を明らかにした。
論文 参考訳(メタデータ) (2024-03-26T19:58:39Z) - Area-norm COBRA on Conditional Survival Prediction [0.0]
本稿では,条件付き生存関数を計算するために,複合回帰戦略の異なるバリエーションについて検討する。
我々は、回帰に基づく弱い学習者を用いて、提案したアンサンブル手法を作成する。
提案したモデルでは、ランダム生存林よりも優れた性能を発揮する構造を示している。
論文 参考訳(メタデータ) (2023-09-01T12:20:30Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Adaptive Fine-Grained Sketch-Based Image Retrieval [100.90633284767205]
最近のファイングレード・スケッチに基づく画像検索は、モデルから新しいカテゴリへの一般化へとシフトしている。
実世界のアプリケーションでは、トレーニングされたFG-SBIRモデルは、新しいカテゴリと異なる人間のスケッチラーの両方に適用されることが多い。
モデルに依存しないメタラーニング(MAML)に基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-04T21:07:20Z) - Off-Beat Multi-Agent Reinforcement Learning [62.833358249873704]
オフビート動作が一般的環境におけるモデルフリーマルチエージェント強化学習(MARL)について検討した。
モデルレスMARLアルゴリズムのための新しいエピソードメモリLeGEMを提案する。
我々は,Stag-Hunter Game,Quarry Game,Afforestation Game,StarCraft IIマイクロマネジメントタスクなど,オフビートアクションを伴うさまざまなマルチエージェントシナリオ上でLeGEMを評価する。
論文 参考訳(メタデータ) (2022-05-27T02:21:04Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - On the Impossibility of Convergence of Mixed Strategies with No Regret
Learning [10.515544361834241]
最適無後悔学習戦略の一般クラスから得られる混合戦略の収束特性について検討する。
各ステップに設定された情報を相手の実演の実証平均とする戦略のクラスを考察する。
論文 参考訳(メタデータ) (2020-12-03T18:02:40Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。