論文の概要: Optimistic Thompson Sampling for No-Regret Learning in Unknown Games
- arxiv url: http://arxiv.org/abs/2402.09456v1
- Date: Wed, 7 Feb 2024 06:10:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-18 12:48:53.195976
- Title: Optimistic Thompson Sampling for No-Regret Learning in Unknown Games
- Title(参考訳): 未知ゲームにおける非回帰学習のための最適トンプソンサンプリング
- Authors: Yingru Li, Liangqi Liu, Wenqiang Pi, Hao Liang, Zhi-Quan Luo
- Abstract要約: 本研究は、部分的な情報とマルチ緊急の呪いによって引き起こされる課題に対処する。
我々は、相手の行動や報酬構造に関する情報を活用するトンプソンサンプリング型アルゴリズムを開発した。
報酬構造に関する特定の仮定の下では、後悔境界は、作用空間の全体サイズに対する対数依存にのみ依存することを示す。
- 参考スコア(独自算出の注目度): 18.065476835917654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many real-world problems involving multiple decision-makers can be modeled as
an unknown game characterized by partial observations. Addressing the
challenges posed by partial information and the curse of multi-agency, we
developed Thompson sampling-type algorithms, leveraging information about
opponent's action and reward structures. Our approach significantly reduces
experimental budgets, achieving a more than tenfold reduction compared to
baseline algorithms in practical applications like traffic routing and radar
sensing. We demonstrate that, under certain assumptions about the reward
structure, the regret bound exhibits merely a logarithmic dependence on the
total action space size, effectively mitigating the curse of multi-agency.
Additionally, this research introduces the Optimism-then-NoRegret framework, a
novel contribution that integrates both our proposed methodologies and existing
algorithms in the field.
- Abstract(参考訳): 複数の意思決定者を含む現実世界の多くの問題は、部分的な観察によって特徴づけられる未知のゲームとしてモデル化できる。
部分的情報とマルチアジェンシーの呪いによって生じる課題に対処し,相手の行動や報酬構造に関する情報を活用したトンプソンサンプリング型アルゴリズムを開発した。
提案手法は実験予算を大幅に削減し,トラヒックルーティングやレーダセンシングといった実用的な応用において,ベースラインアルゴリズムと比較して10倍以上の削減を実現する。
報奨構造に関する一定の仮定の下では、後悔の束縛は、全体の行動空間サイズに対する対数依存しか示さないことを示し、マルチアジェンシーの呪いを効果的に緩和する。
さらに本研究では,提案手法と既存アルゴリズムを現場で統合した新しいコントリビューションであるOptimism-then-NoRegretフレームワークを紹介する。
関連論文リスト
- A Risk-Averse Framework for Non-Stationary Stochastic Multi-Armed
Bandits [0.0]
医療や金融のような高ボラティリティの分野では、素直な報酬アプローチは学習問題の複雑さを正確に捉えないことが多い。
非定常環境で動作する適応型リスク認識戦略の枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-24T19:29:13Z) - Capsa: A Unified Framework for Quantifying Risk in Deep Neural Networks [142.67349734180445]
ディープニューラルネットワークにリスク認識を提供する既存のアルゴリズムは複雑でアドホックである。
ここでは、リスク認識でモデルを拡張するためのフレームワークであるcapsaを紹介します。
論文 参考訳(メタデータ) (2023-08-01T02:07:47Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Thompson Sampling with Virtual Helping Agents [0.0]
我々は、オンラインのシーケンシャルな意思決定の問題、すなわち、現在の知識を活用して即時パフォーマンスを最大化し、新しい情報を探索して長期的な利益を得るというトレードオフに対処する。
本稿では,マルチアームバンディット問題に対する2つのアルゴリズムを提案し,累積的後悔に関する理論的境界を提供する。
論文 参考訳(メタデータ) (2022-09-16T23:34:44Z) - Multi-Armed Bandit Problem with Temporally-Partitioned Rewards: When
Partial Feedback Counts [53.579515853222986]
時間分割リワード(TP-MAB)を用いたマルチアーメッド・バンディット(Multi-Armed Bandit)について検討する。
この設定は、プル後の有限時間スパン上で報酬が拡張されるケースに対する遅延フィードバックバンディットの自然な拡張である。
本稿では,TP-UCB-FRとTP-UCB-EWの2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T15:56:59Z) - Slowly Changing Adversarial Bandit Algorithms are Efficient for
Discounted MDPs [10.68896183306706]
強化学習は、長期計画の地平線と未知の遷移カーネルのさらなる困難を伴って、多武装のバンディット問題を一般化する。
また, 無限水平割引マルコフ決定過程において, 逆帯域設定における最適後悔を達成するために, 徐々に変化する逆帯域設定アルゴリズムが最適後悔を達成できることを示す。
論文 参考訳(メタデータ) (2022-05-18T16:40:30Z) - Surveillance Evasion Through Bayesian Reinforcement Learning [78.79938727251594]
ランダム終端の強度が全く不明な2次元連続経路計画問題を考える。
これらのオブザーバーの監視強度は未知であり、反復的な経路計画を通じて学ぶ必要がある。
論文 参考訳(メタデータ) (2021-09-30T02:29:21Z) - A High Performance, Low Complexity Algorithm for Multi-Player Bandits
Without Collision Sensing Information [7.198362232890585]
本論文では,Selfish KL-UCBアルゴリズムに触発された計算複雑性が非常に低いアルゴリズムであるRandomized Selfish KL-UCBを提案する。
ほぼすべての環境で、時には数桁のオーダーで、最先端のアルゴリズムが必要とする追加の知識なしで、最先端のアルゴリズムをはるかに上回ることを示す。
論文 参考訳(メタデータ) (2021-02-19T23:10:48Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Experimental Design for Regret Minimization in Linear Bandits [19.8309784360219]
オンライン・リニア・バンドレットにおける後悔を最小限に抑える設計に基づく新しいアルゴリズムを提案する。
我々は、現在最先端の有限時間後悔保証を提供し、このアルゴリズムが帯域幅と半帯域幅の両方のフィードバックシステムに適用可能であることを示す。
論文 参考訳(メタデータ) (2020-11-01T17:59:19Z) - Learning from eXtreme Bandit Feedback [105.0383130431503]
非常に大きな行動空間の設定における帯域幅フィードバックからのバッチ学習の問題について検討する。
本稿では,より有利なバイアス分散状態で動作する選択的重要度サンプリング推定器(sIS)を提案する。
我々は,この推定器を,XMCタスクの帯域幅フィードバックから学習するために,新しいアルゴリズム手法であるポリシ・オプティマイズ・フォー・エクストリーム・モデル (POXM) に採用する。
論文 参考訳(メタデータ) (2020-09-27T20:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。