論文の概要: Multi-Armed Bandits with Generalized Temporally-Partitioned Rewards
- arxiv url: http://arxiv.org/abs/2303.00620v1
- Date: Wed, 1 Mar 2023 16:22:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 14:13:11.246007
- Title: Multi-Armed Bandits with Generalized Temporally-Partitioned Rewards
- Title(参考訳): 時間分割リワードを一般化したマルチアーマッドバンド
- Authors: Ronald C. van den Broek, Rik Litjens, Tobias Sagis, Luc Siecker, Nina
Verbeeke, Pratik Gajane
- Abstract要約: 現実のアプリケーションでは、決定に関するフィードバックが遅れて、異なる遅延で観察される部分的な報酬によって到着する場合がある。
本稿では,時間分割報酬を一般化したマルチアームバンディット(multi-armed bandits)と呼ばれる新しい問題定式化を提案する。
検討した問題に対する一様に効率的なアルゴリズムの性能の低い境界を導出する。
- 参考スコア(独自算出の注目度): 0.4194295877935867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision-making problems of sequential nature, where decisions made in the
past may have an impact on the future, are used to model many practically
important applications. In some real-world applications, feedback about a
decision is delayed and may arrive via partial rewards that are observed with
different delays. Motivated by such scenarios, we propose a novel problem
formulation called multi-armed bandits with generalized temporally-partitioned
rewards. To formalize how feedback about a decision is partitioned across
several time steps, we introduce $\beta$-spread property. We derive a lower
bound on the performance of any uniformly efficient algorithm for the
considered problem. Moreover, we provide an algorithm called TP-UCB-FR-G and
prove an upper bound on its performance measure. In some scenarios, our upper
bound improves upon the state of the art. We provide experimental results
validating the proposed algorithm and our theoretical results.
- Abstract(参考訳): 過去になされた決定が未来に影響を及ぼすようなシーケンシャルな意思決定問題は、現実的に重要なアプリケーションの多くをモデル化するために用いられる。
現実のアプリケーションでは、決定に関するフィードバックが遅れ、異なる遅延で観察される部分的な報酬によって到着することがある。
そこで,このようなシナリオに動機づけられ,時間分割報酬を一般化したマルチアームバンディットと呼ばれる新しい問題定式化を提案する。
決定に対するフィードバックを複数の時間ステップで分割する方法を形式化するために、$\beta$-spreadプロパティを導入します。
検討した問題に対する一様に効率的なアルゴリズムの性能の低い境界を導出する。
さらに,TP-UCB-FR-Gというアルゴリズムを提案し,その性能指標の上限を証明した。
いくつかのシナリオでは、私たちの上界は芸術の状態を改善します。
本稿では,提案アルゴリズムと理論的結果の検証実験を行った。
関連論文リスト
- Sound Heuristic Search Value Iteration for Undiscounted POMDPs with Reachability Objectives [16.101435842520473]
本稿では,POMDPにおける最大到達可能性確率問題(indefinite-horizon)と呼ばれる問題について検討する。
割引問題に対するポイントベース手法の成功に触発され,MRPPへの拡張について検討した。
本稿では,これらの手法の強みを有効活用し,信念空間を効率的に探索するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T02:33:50Z) - Provably Efficient Learning in Partially Observable Contextual Bandit [4.910658441596583]
古典的帯域幅アルゴリズムの改善に因果境界をどのように適用できるかを示す。
本研究は,実世界の応用における文脈的包括的エージェントの性能を高める可能性を秘めている。
論文 参考訳(メタデータ) (2023-08-07T13:24:50Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - A Reduction-based Framework for Sequential Decision Making with Delayed
Feedback [53.79893086002961]
汎用マルチエージェントシーケンシャル意思決定における遅延フィードバックについて検討する。
本稿では, 逐次的意思決定のためのマルチバッチアルゴリズムを, 即時フィードバックにより, サンプル効率のよいアルゴリズムに変換する, 新たなリダクションベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-03T01:16:09Z) - Multi-Armed Bandit Problem with Temporally-Partitioned Rewards: When
Partial Feedback Counts [53.579515853222986]
時間分割リワード(TP-MAB)を用いたマルチアーメッド・バンディット(Multi-Armed Bandit)について検討する。
この設定は、プル後の有限時間スパン上で報酬が拡張されるケースに対する遅延フィードバックバンディットの自然な拡張である。
本稿では,TP-UCB-FRとTP-UCB-EWの2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T15:56:59Z) - Batched Neural Bandits [107.5072688105936]
BatchNeuralUCBはニューラルネットワークと楽観性を組み合わせ、探索と探索のトレードオフに対処する。
BatchNeuralUCBは、完全なシーケンシャルバージョンと同じ後悔を達成しつつ、ポリシー更新の数を大幅に減らしています。
論文 参考訳(メタデータ) (2021-02-25T17:36:44Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z) - A Farewell to Arms: Sequential Reward Maximization on a Budget with a
Giving Up Option [5.1629297054995265]
エージェントが一度にひとつのアクションを採り、各アクションが時間的範囲を持つような、シーケンシャルな意思決定問題を考える。
我々は、対数的、問題依存的後悔境界を確立する上で、高い信頼度に基づくアルゴリズム(WAIT-UCB)を導入する。
論文 参考訳(メタデータ) (2020-03-06T22:16:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。