論文の概要: Bandit Linear Optimization for Sequential Decision Making and
Extensive-Form Games
- arxiv url: http://arxiv.org/abs/2103.04546v1
- Date: Mon, 8 Mar 2021 05:00:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-10 20:50:11.969606
- Title: Bandit Linear Optimization for Sequential Decision Making and
Extensive-Form Games
- Title(参考訳): 逐次決定と拡張形式ゲームのための帯域線形最適化
- Authors: Gabriele Farina, Robin Schmucker, Tuomas Sandholm
- Abstract要約: tree-form sequential decision making (tfsdm) は、エージェントと潜在的に敵対的な環境の間のツリー形式の相互作用をモデル化することで、古典的なワンショット意思決定を拡張する。
これは、各プレイヤーが幅広い形式のゲームで直面するオンライン意思決定問題、およびマルコフ決定プロセス、およびエージェントが観測された履歴を条件とする部分観察可能なマルコフ決定プロセスをキャプチャする。
本稿では, (i) 線形時間損失と (ii) $o(sqrtt)$ cumulative regret の両方を提供する拡張dmのバンディット線形最適化問題に対する最初のアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 102.23975166536326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tree-form sequential decision making (TFSDM) extends classical one-shot
decision making by modeling tree-form interactions between an agent and a
potentially adversarial environment. It captures the online decision-making
problems that each player faces in an extensive-form game, as well as Markov
decision processes and partially-observable Markov decision processes where the
agent conditions on observed history. Over the past decade, there has been
considerable effort into designing online optimization methods for TFSDM.
Virtually all of that work has been in the full-feedback setting, where the
agent has access to counterfactuals, that is, information on what would have
happened had the agent chosen a different action at any decision node. Little
is known about the bandit setting, where that assumption is reversed (no
counterfactual information is available), despite this latter setting being
well understood for almost 20 years in one-shot decision making. In this paper,
we give the first algorithm for the bandit linear optimization problem for
TFSDM that offers both (i) linear-time iterations (in the size of the decision
tree) and (ii) $O(\sqrt{T})$ cumulative regret in expectation compared to any
fixed strategy, at all times $T$. This is made possible by new results that we
derive, which may have independent uses as well: 1) geometry of the dilated
entropy regularizer, 2) autocorrelation matrix of the natural sampling scheme
for sequence-form strategies, 3) construction of an unbiased estimator for
linear losses for sequence-form strategies, and 4) a refined regret analysis
for mirror descent when using the dilated entropy regularizer.
- Abstract(参考訳): tree-form sequential decision making (tfsdm) は、エージェントと潜在的に敵対的な環境の間のツリー形式の相互作用をモデル化することで、古典的なワンショット意思決定を拡張する。
これは、各プレイヤーが幅広い形式のゲームで直面するオンライン意思決定問題、およびマルコフ決定プロセス、およびエージェントが観測された履歴を条件とする部分観察可能なマルコフ決定プロセスをキャプチャする。
過去10年間で、TFSDMのオンライン最適化手法の設計に多大な努力が払われてきた。
エージェントは反事実、すなわち、エージェントが任意の決定ノードで異なるアクションを選択した場合に何が起こったかに関する情報にアクセスすることができます。
バンディット設定についてはほとんど知られていないが、この仮定は逆転し(偽情報はない)、後者の設定は1ショットの意思決定で約20年間よく理解されている。
本稿では、(i)線形時間反復(決定木の大きさ)と(ii) $O(\sqrt{T})$ 累積後悔を、任意の固定戦略と比較して常に$T$で提供するTFSDMのバンドライト線形最適化問題のための最初のアルゴリズムを与える。
1) 拡張エントロピー正則化器の幾何構造, 2) シーケンス形式戦略のための自然サンプリングスキームの自己相関行列, 3) シーケンス形式正則化器を使用する場合の鏡面下降に対する不偏推定器の構成, 4) 拡張エントロピー正則化器を用いた鏡面下降に対する厳格な後悔解析などである。
関連論文リスト
- Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement
Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。
我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。
また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-21T00:17:24Z) - Constrained Online Two-stage Stochastic Optimization: Near Optimal Algorithms via Adversarial Learning [1.994307489466967]
有限地平線上の長期制約付きオンライン2段階最適化をT$周期で検討する。
対戦型学習アルゴリズムからオンライン二段階問題のオンラインアルゴリズムを開発する。
論文 参考訳(メタデータ) (2023-02-02T10:33:09Z) - Markov Decision Process modeled with Bandits for Sequential Decision
Making in Linear-flow [73.1896399783641]
会員/加入者の獲得と保持では、複数のページを連続してマーケティングコンテンツを推奨する必要がある。
遷移確率行列をモデル化するためにBandits を用いた MDP としてこの問題を定式化することを提案する。
提案したMDPのBanditsアルゴリズムは,$epsilon$-greedyと$epsilon$-greedy,$epsilon$,IndependentBandits,InteractionBanditsでQ-learningを上回っている。
論文 参考訳(メタデータ) (2021-07-01T03:54:36Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z) - An Efficient Algorithm for Cooperative Semi-Bandits [0.0]
本稿では,有名なFollow The Perturbed Leaderアルゴリズムの協調バージョンであるCoop-FTPLを紹介する。
T 時間ステップ後のアルゴリズムの期待された後悔は QT log(k)(k$alpha$ 1 /Q + m) であり、Q は総アクティベーション確率質量である。
論文 参考訳(メタデータ) (2020-10-05T07:08:26Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。