論文の概要: An Information-Theoretic Analysis of Nonstationary Bandit Learning
- arxiv url: http://arxiv.org/abs/2302.04452v2
- Date: Sat, 23 Dec 2023 15:10:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-28 02:10:54.565457
- Title: An Information-Theoretic Analysis of Nonstationary Bandit Learning
- Title(参考訳): 非定常帯域学習の情報理論解析
- Authors: Seungki Min, Daniel Russo
- Abstract要約: 非定常的バンディット学習問題では、意思決定者は継続的に情報を収集し、環境の潜伏状態が発展するにつれて行動選択を適応させなければならない。
我々は、最適なアクションシーケンスをプロセスとみなし、達成可能なパフォーマンスを分析するために情報理論的なアプローチをとる。
- 参考スコア(独自算出の注目度): 7.060755016117366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In nonstationary bandit learning problems, the decision-maker must
continually gather information and adapt their action selection as the latent
state of the environment evolves. In each time period, some latent optimal
action maximizes expected reward under the environment state. We view the
optimal action sequence as a stochastic process, and take an
information-theoretic approach to analyze attainable performance. We bound
limiting per-period regret in terms of the entropy rate of the optimal action
process. The bound applies to a wide array of problems studied in the
literature and reflects the problem's information structure through its
information-ratio.
- Abstract(参考訳): 非定常的バンディット学習問題では、意思決定者は継続的に情報を収集し、環境の潜伏状態が発展するにつれて行動選択を適用する必要がある。
それぞれの期間において、潜在的な最適行動は、環境状態下での期待報酬を最大化する。
最適な動作シーケンスを確率的プロセスとみなし、情報理論を用いて達成可能な性能を解析する。
我々は, 最適作用過程のエントロピー率の観点から, 周期毎の後悔を制限する。
この境界は、文献で研究された幅広い問題に適用され、その情報比を通じて問題の情報構造を反映する。
関連論文リスト
- Pattern based learning and optimisation through pricing for bin packing problem [50.83768979636913]
確率変数の分布のような問題条件が変化すると、以前の状況でうまく機能するパターンはより効果的になるかもしれないと論じる。
本研究では,パターンを効率的に同定し,各条件に対する値の動的定量化を行う新しい手法を提案する。
本手法は,制約を満たす能力と目的値に対する影響に基づいて,パターンの値の定量化を行う。
論文 参考訳(メタデータ) (2024-08-27T17:03:48Z) - Online Learning Approach for Survival Analysis [1.0499611180329806]
生存分析のためのオンライン数学フレームワークを導入し、動的環境や検閲データへのリアルタイム適応を可能にする。
このフレームワークは、最適2階オンライン凸最適化アルゴリズムによるイベント時間分布の推定を可能にする-オンラインニュートンステップ(ONS)
論文 参考訳(メタデータ) (2024-02-07T08:15:30Z) - Generative Intrinsic Optimization: Intrinsic Control with Model Learning [5.439020425819001]
将来のシーケンスは、環境へのアクションの実行後の結果を表す。
明示的な成果は、クレジットの割り当てや模倣学習などの異なる目的のために、州、返却、軌跡によって異なりうる。
本稿では、相互情報をシームレスに組み込んだ政策スキームを提案し、最適な政策への収束を確保する。
論文 参考訳(メタデータ) (2023-10-12T07:50:37Z) - Approximate information for efficient exploration-exploitation
strategies [0.0]
探索-探索のジレンマは、現在の知識を即時利益のために活用するか、または潜在的長期報酬のために新しい道を探るかを決定する。
本稿では,エントロピーを解析的に近似した新しいアルゴリズムである近似情報(AIM)を導入し,各時点にどのアームを引くかを選択する。
論文 参考訳(メタデータ) (2023-07-04T08:34:01Z) - Optimistic Active Exploration of Dynamical Systems [52.91573056896633]
我々はOPAXと呼ばれる活発な探索のためのアルゴリズムを開発した。
我々は,OPAXを各エピソードで解決可能な最適制御問題に還元する方法を示す。
実験の結果,OPAXは理論的に健全であるだけでなく,新規な下流タスクのゼロショット計画にも有効であることがわかった。
論文 参考訳(メタデータ) (2023-06-21T16:26:59Z) - Markov Decision Processes under External Temporal Processes [9.407514147408627]
本研究では,マルコフ決定過程(MDP)を外的時間的プロセスの影響下で研究する。
本稿では,この問題を解決するためのポリシー反復アルゴリズムを提案し,その性能を理論的に解析する。
論文 参考訳(メタデータ) (2023-05-25T13:38:53Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Extension of Dynamic Mode Decomposition for dynamic systems with
incomplete information based on t-model of optimal prediction [69.81996031777717]
動的モード分解は、動的データを研究するための非常に効率的な手法であることが証明された。
このアプローチの適用は、利用可能なデータが不完全である場合に問題となる。
本稿では,森-Zwanzig分解の1次近似を考察し,対応する最適化問題を記述し,勾配に基づく最適化法を用いて解く。
論文 参考訳(メタデータ) (2022-02-23T11:23:59Z) - Bellman Meets Hawkes: Model-Based Reinforcement Learning via Temporal
Point Processes [8.710154439846816]
エージェントが離散的な事象を特徴とする環境に直面する逐次的意思決定問題を考える。
この問題は、ソーシャルメディア、金融、健康情報学において至るところに存在しているが、強化学習における従来の研究によって研究されることは稀である。
本稿では,エージェントの動作と観察が連続的に発生する非同期離散事象であるモデルに基づく強化学習の枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-29T11:53:40Z) - Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。
本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文 参考訳(メタデータ) (2022-01-28T05:53:28Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。