Fugu-MT 論文翻訳(概要): Double Thompson Sampling in Finite stochastic Games

論文の概要: Double Thompson Sampling in Finite stochastic Games

arxiv url: http://arxiv.org/abs/2202.10008v1
Date: Mon, 21 Feb 2022 06:11:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-24 12:39:45.640946
Title: Double Thompson Sampling in Finite stochastic Games
Title（参考訳）: 有限確率ゲームにおけるダブルトンプソンサンプリング
Authors: Shuqing Shi, Xiaobin Wang, Zhiyou Yang, Fan Zhang and Hong Qu
Abstract要約: 有限割引マルコフ決定プロセスの下での探索と利用のトレードオフ問題を考察する。このような問題を解決するために、二重トンプソンサンプリング強化学習アルゴリズム(DTS)を提案する。
参考スコア（独自算出の注目度）: 10.559241770674724
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We consider the trade-off problem between exploration and exploitation under finite discounted Markov Decision Process, where the state transition matrix of the underlying environment stays unknown. We propose a double Thompson sampling reinforcement learning algorithm(DTS) to solve this kind of problem. This algorithm achieves a total regret bound of $\tilde{\mathcal{O}}(D\sqrt{SAT})$\footnote{The symbol $\tilde{\mathcal{O}}$ means $\mathcal{O}$ with log factors ignored} in time horizon $T$ with $S$ states, $A$ actions and diameter $D$. DTS consists of two parts, the first part is the traditional part where we apply the posterior sampling method on transition matrix based on prior distribution. In the second part, we employ a count-based posterior update method to balance between the local optimal action and the long-term optimal action in order to find the global optimal game value. We established a regret bound of $\tilde{\mathcal{O}}(\sqrt{T}/S^{2})$. Which is by far the best regret bound for finite discounted Markov Decision Process to our knowledge. Numerical results proves the efficiency and superiority of our approach.
Abstract（参考訳）: 基礎となる環境の状態遷移行列が未知のままである有限割引マルコフ決定過程における探索と搾取のトレードオフ問題を考える。このような問題を解決するために、二重トンプソンサンプリング強化学習アルゴリズム(DTS)を提案する。このアルゴリズムは$\tilde{\mathcal{o}}(d\sqrt{sat})$\footnote{the symbol $\tilde{\mathcal{o}}$ means $\mathcal{o}$ with log factors ignore} in time horizon $t$ with $s$ states, $a$ action and diameter $d$ という完全な後悔を実現できる。 DTSは2つの部分から構成されており、第1部は従来の部分であり、先行分布に基づいて遷移行列に後続サンプリング法を適用する。第2部では,局所的最適動作と長期的最適動作のバランスをとるために,カウントベースの後続更新法を用いて,大域的最適ゲーム値を求める。我々は$\tilde{\mathcal{O}}(\sqrt{T}/S^{2})$の後悔の限界を確立した。これは、有限割引のMarkov Decision Processが私たちの知識に課した最大の後悔である。数値的な結果は、我々のアプローチの効率と優越性を証明します。

関連論文リスト

Reinforcement Learning from Adversarial Preferences in Tabular MDPs [62.73758165845971]
我々は,敵対的嗜好を持つエピソードマルコフ決定プロセス(MDP)の新たな枠組みを導入する。 PbMDP では、標準的なエピソード MDP とは異なり、学習者は2つの候補アーム間の好みを観察する。我々は、既知遷移の下で、T2/3$という残差境界を達成するアルゴリズムを開発する。
論文参考訳（メタデータ） (2025-07-15T20:19:32Z)
Global Convergence for Average Reward Constrained MDPs with Primal-Dual Actor Critic Algorithm [31.539921770584005]
本研究では,高収束率を確保しつつ制約を適切に管理するPrimal-Dual Natural Actor-Criticアルゴリズムを提案する。この結果はマルコフ決定過程の理論的下限と一致し、平均報酬CMDPの理論的探索において新しいベンチマークを確立する。
論文参考訳（メタデータ） (2025-05-21T05:49:11Z)
Near-optimal Regret Using Policy Optimization in Online MDPs with Aggregate Bandit Feedback [49.84060509296641]
オンライン有限水平マルコフ決定過程を逆向きに変化した損失と総括的帯域幅フィードバック(フルバンド幅)を用いて研究する。この種のフィードバックの下では、エージェントは、軌跡内の各中間段階における個々の損失よりも、軌跡全体に生じる総損失のみを観察する。この設定のための最初のポリシー最適化アルゴリズムを紹介します。
論文参考訳（メタデータ） (2025-02-06T12:03:24Z)
Order-Optimal Regret with Novel Policy Gradient Approaches in Infinite-Horizon Average Reward MDPs [31.343919501963416]
無限水平平均報酬マルコフ決定過程(MDP)の文脈における一般パラメトリゼーションを用いた2つのポリシー勾配に基づくアルゴリズムを提案する。 1つはインプリシット・グラディエント・トランスポート(Implicit Gradient Transport)で分散還元を行い、$tildemathcalO(T2/3)$に対する期待された後悔を確実にする。第2のアプローチは、ヘッセンの手法をルーツとするもので、$tildemathcalO(sqrtT)$を期待された後悔を保証する。
論文参考訳（メタデータ） (2024-04-02T17:08:23Z)
Best-of-Both-Worlds Algorithms for Linear Contextual Bandits [11.94312915280916]
両世界のベスト・オブ・ワールドズ・アルゴリズムを$K$武器付き線形文脈包帯に対して検討する。我々のアルゴリズムは、敵対的体制と敵対的体制の両方において、ほぼ最適の後悔の限界を提供する。
論文参考訳（メタデータ） (2023-12-24T08:27:30Z)
Refined Regret for Adversarial MDPs with Linear Function Approximation [50.00022394876222]
我々は,損失関数が約1,300ドル以上のエピソードに対して任意に変化するような,敵対的決定過程(MDP)の学習を検討する。本稿では,同じ設定で$tildemathcal O(K2/3)$に対する後悔を改善する2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-01-30T14:37:21Z)
Horizon-Free and Variance-Dependent Reinforcement Learning for Latent Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文参考訳（メタデータ） (2022-10-20T21:32:01Z)
Near-Optimal Regret Bounds for Multi-batch Reinforcement Learning [54.806166861456035]
本研究では,有限水平マルコフ決定過程(MDP)によってモデル化されたエピソディック強化学習(RL)問題をバッチ数に制約を加えて検討する。我々は,$tildeO(sqrtSAH3Kln (1/delta))$tildeO(cdot)をほぼ最適に後悔するアルゴリズムを設計し,$(S,A,H,K)$の対数項を$K$で隠蔽する。技術的貢献は2つある: 1) 探索のためのほぼ最適設計スキーム
論文参考訳（メタデータ） (2022-10-15T09:22:22Z)
Computationally Efficient Horizon-Free Reinforcement Learning for Linear Mixture MDPs [111.75736569611159]
線形混合MDPのための計算効率のよい初めての地平線フリーアルゴリズムを提案する。我々のアルゴリズムは、未知の遷移力学に対する重み付き最小二乗推定器に適応する。これにより、$sigma_k2$'sが知られているときに、この設定で最もよく知られたアルゴリズムも改善される。
論文参考訳（メタデータ） (2022-05-23T17:59:18Z)
On Unbalanced Optimal Transport: Gradient Methods, Sparsity and Approximation Error [18.19398247972205]
我々は、少なくとも$n$の成分を持つ、おそらく異なる質量の2つの測度の間の不均衡最適輸送(UOT)について研究する。 UOT問題に対する$varepsilon$-approximateの解を求めるために,GEM-UOT(Gradient Extrapolation Method)に基づく新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-02-08T03:22:39Z)
The best of both worlds: stochastic and adversarial episodic MDPs with unknown transition [49.78053380710322]
我々は,エピソードT$でマルコフ決定過程を学習する上で,両世界の最良の問題を考える。最近の[Jin and Luo, 2020]による研究は、固定遷移が分かっているときにこの目標を達成する。本研究では,同じFollow-the-Regularized-Leader(textFTRL$)フレームワークを新しいテクニックのセットと組み合わせることで,この問題を解決する。
論文参考訳（メタデータ） (2021-06-08T05:46:35Z)
Provably Breaking the Quadratic Error Compounding Barrier in Imitation Learning, Optimally [58.463668865380946]
状態空間 $mathcalS$ を用いたエピソードマルコフ決定過程 (MDPs) における模擬学習の統計的限界について検討する。 rajaraman et al (2020) におけるmdアルゴリズムを用いた準最適性に対する上限 $o(|mathcals|h3/2/n)$ を定式化する。 Omega(H3/2/N)$ $mathcalS|geq 3$ であるのに対して、未知の遷移条件はよりシャープレートに悩まされる。
論文参考訳（メタデータ） (2021-02-25T15:50:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。