論文の概要: A New Bandit Setting Balancing Information from State Evolution and
Corrupted Context
- arxiv url: http://arxiv.org/abs/2011.07989v3
- Date: Mon, 7 Mar 2022 06:55:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 23:38:43.693161
- Title: A New Bandit Setting Balancing Information from State Evolution and
Corrupted Context
- Title(参考訳): 状態進化と腐敗した文脈からの情報バランスをとる新しいバンディット設定
- Authors: Alexander Galozy, Slawomir Nowaczyk, Mattias Ohlsson
- Abstract要約: 本稿では,モバイル・ヘルス・アプリケーションによる新たな意思決定環境を提案する。
どちらも、最適なアクションはエージェントが直接観察できない基礎となる変化状態にあると仮定する。
本稿では,レフェリーを用いて,コンテキストブレイジットとマルチアームブレイジットのポリシーを動的に組み合わせるアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 70.90961705589784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new sequential decision-making setting, motivated by mobile
health applications, based on combining key aspects of two established online
problems with bandit feedback. Both assume that the optimal action to play is
contingent on an underlying changing state which is not directly observable by
the agent. They differ in what kind of side information can be used to estimate
this state. The first one considers each state to be associated with a context,
possibly corrupted, allowing the agent to learn the context-to-state mapping.
The second one considers that the state itself evolves in a Markovian fashion,
thus allowing the agent to estimate the current state based on history. We
argue that it is realistic for the agent to have access to both these sources
of information, i.e., an arbitrarily corrupted context obeying the Markov
property. Thus, the agent is faced with a new challenge of balancing its belief
about the reliability of information from learned state transitions versus
context information. We present an algorithm that uses a referee to dynamically
combine the policies of a contextual bandit and a multi-armed bandit. We
capture the time-correlation of states through iteratively learning the
action-reward transition model, allowing for efficient exploration of actions.
Users transition through different unobserved, time-correlated but only
partially observable internal states, which determine their current needs. The
side-information about users might not always be reliable and standard
approaches solely relying on the context risk incurring high regret. Similarly,
some users might exhibit weaker correlations between subsequent states, leading
to approaches that solely rely on state transitions risking the same. We
evaluate our method on simulated data and on several real-world data sets,
showing improved empirical performance compared to several popular algorithms.
- Abstract(参考訳): 本稿では,2つの確立されたオンライン問題の鍵となる側面と包括的フィードバックを組み合わせることで,モバイルヘルスアプリケーションに動機づけられた新たなシーケンシャルな意思決定環境を提案する。
どちらも、プレイする最適なアクションがエージェントによって直接観測できない基盤となる変化状態にあると仮定している。
それらは、どのようなサイド情報を使ってこの状態を見積もることができるかによって異なる。
1つ目は、各状態がコンテキストと関連付けられているとみなし、おそらくは破損し、エージェントはコンテキストから状態へのマッピングを学ぶことができる。
2つ目は、状態そのものがマルコフ様式で進化し、エージェントが履歴に基づいて現在の状態を推定できると考えることである。
我々は、エージェントがこれらの情報ソース、すなわち、マルコフ特性に従う任意に腐敗したコンテキストにアクセスすることは現実的であると主張する。
このようにエージェントは、学習状態遷移と文脈情報との信頼性についての信頼のバランスをとるという新たな課題に直面している。
本稿では,レフェリーを用いて,コンテキストブレイジットとマルチアームブレイジットのポリシーを動的に組み合わせるアルゴリズムを提案する。
我々は、行動回帰遷移モデルを繰り返し学習することで、状態の時間相関を捉え、行動の効率的な探索を可能にする。
ユーザーは、観測されていない、時間に関連のある異なる内部状態に移行し、現在のニーズを決定する。
ユーザに関するサイド情報は必ずしも信頼できるものではなく、標準的なアプローチは、高い後悔を伴うコンテキストリスクのみに依存する。
同様に、一部のユーザーはその後の状態間でより弱い相関関係を示し、同じリスクを負う状態遷移のみに依存するアプローチへと導かれる。
本手法はシミュレーションデータおよび実世界のデータセット上で評価し,いくつかのアルゴリズムと比較して経験的性能が向上した。
関連論文リスト
- Information Capacity Regret Bounds for Bandits with Mediator Feedback [55.269551124587224]
我々は,政策セットの複雑さに対する情報理論尺度として,政策セットの容量を導入する。
古典的なEXP4アルゴリズムを採用することで、ポリシーセットの容量に応じて、新たな後悔の限界を提供する。
ポリシーセットファミリの選択については、キャパシティと同じようなスケールで、ほぼ整合性の低い境界を証明します。
論文 参考訳(メタデータ) (2024-02-15T19:18:47Z) - Online learning in bandits with predicted context [8.257280652461159]
エージェントがコンテキストの騒々しいバージョンにしかアクセスできない場合、コンテキスト的帯域幅の問題を考える。
この設定は、意思決定の真のコンテキストが守られない広範囲のアプリケーションによって動機付けられている。
本研究では,この設定において,軽度条件下でのサブ線形後悔保証を用いた最初のオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-26T02:33:54Z) - OpenPI-C: A Better Benchmark and Stronger Baseline for Open-Vocabulary
State Tracking [55.62705574507595]
OpenPIは、オープン語彙状態トラッキング用に注釈付けされた唯一のデータセットである。
手順レベル,ステップレベル,状態変化レベルの3つの問題を分類する。
評価指標として,クラスタベースの計量法を提案する。
論文 参考訳(メタデータ) (2023-06-01T16:48:20Z) - Accelerating Reinforcement Learning with Value-Conditional State Entropy Exploration [97.19464604735802]
探索のための有望な技術は、訪問状態分布のエントロピーを最大化することである。
エージェントが高価値の状態を訪問することを好むような、タスク報酬を伴う教師付きセットアップで苦労する傾向があります。
本稿では,値条件のエントロピーを最大化する新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T01:09:28Z) - Continuous Mean-Covariance Bandits [39.820490484375156]
本稿では,選択肢相関を考慮した連続平均共分散帯域モデルを提案する。
CMCBでは、与えられた選択肢の重みベクトルを逐次選択し、決定に従ってランダムなフィードバックを観察する学習者がいる。
最適な後悔(対数的因子を含む)を伴う新しいアルゴリズムを提案し、それらの最適性を検証するために一致した下界を提供する。
論文 参考訳(メタデータ) (2021-02-24T06:37:05Z) - Blind Decision Making: Reinforcement Learning with Delayed Observations [43.126718159042305]
強化学習は、以前のアクションからの状態更新が瞬時に起こると仮定する。
状態更新が利用できない場合、現在の状態情報に依存することができないため、決定は一部盲目となる。
本稿では,国家の知識の遅れを生かし,利用可能な情報に基づいて意思決定を行うアプローチを提案する。
論文 参考訳(メタデータ) (2020-11-16T04:29:14Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。