論文の概要: A New Bandit Setting Balancing Information from State Evolution and
Corrupted Context
- arxiv url: http://arxiv.org/abs/2011.07989v4
- Date: Sun, 5 Nov 2023 03:25:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 02:14:43.034365
- Title: A New Bandit Setting Balancing Information from State Evolution and
Corrupted Context
- Title(参考訳): 状態進化と腐敗した文脈からの情報バランスをとる新しいバンディット設定
- Authors: Alexander Galozy, Slawomir Nowaczyk, Mattias Ohlsson
- Abstract要約: 本稿では,2つの確立されたオンライン学習問題と包括的フィードバックを組み合わせた,逐次的意思決定方式を提案する。
任意の瞬間にプレーする最適なアクションは、エージェントによって直接観察できない基礎となる変化状態に付随する。
本稿では,レフェリーを用いて,コンテキストブレイジットとマルチアームブレイジットのポリシーを動的に組み合わせるアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 52.67844649650687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new sequential decision-making setting, combining key aspects of
two established online learning problems with bandit feedback. The optimal
action to play at any given moment is contingent on an underlying changing
state which is not directly observable by the agent. Each state is associated
with a context distribution, possibly corrupted, allowing the agent to identify
the state. Furthermore, states evolve in a Markovian fashion, providing useful
information to estimate the current state via state history. In the proposed
problem setting, we tackle the challenge of deciding on which of the two
sources of information the agent should base its arm selection. We present an
algorithm that uses a referee to dynamically combine the policies of a
contextual bandit and a multi-armed bandit. We capture the time-correlation of
states through iteratively learning the action-reward transition model,
allowing for efficient exploration of actions. Our setting is motivated by
adaptive mobile health (mHealth) interventions. Users transition through
different, time-correlated, but only partially observable internal states,
determining their current needs. The side information associated with each
internal state might not always be reliable, and standard approaches solely
rely on the context risk of incurring high regret. Similarly, some users might
exhibit weaker correlations between subsequent states, leading to approaches
that solely rely on state transitions risking the same. We analyze our setting
and algorithm in terms of regret lower bound and upper bounds and evaluate our
method on simulated medication adherence intervention data and several
real-world data sets, showing improved empirical performance compared to
several popular algorithms.
- Abstract(参考訳): そこで本研究では,確立されたオンライン学習問題とバンディットフィードバックの2つの重要な側面を組み合わせた,新たな逐次意思決定設定を提案する。
任意の瞬間にプレーする最適なアクションは、エージェントによって直接観察できない基礎となる変化状態に付随する。
各状態はコンテキスト分布と関連付けられ、おそらくは破損し、エージェントは状態を特定することができる。
さらに、状態はマルコフ様式で進化し、状態履歴を通じて現在の状態を推定するための有用な情報を提供する。
提案する問題設定では,エージェントがアーム選択の基盤となる2つの情報源のどちらを決定するかという課題に取り組む。
本稿では,レフェリーを用いて,コンテキストブレイジットとマルチアームブレイジットのポリシーを動的に組み合わせるアルゴリズムを提案する。
我々は、行動回帰遷移モデルを繰り返し学習することで、状態の時間相関を捉え、行動の効率的な探索を可能にする。
私たちの設定はadaptive mobile health (mhealth) の介入によって動機づけられています。
ユーザーは異なる時間に関連があるが、部分的に観察可能な内部状態に移行し、現在のニーズを決定する。
各内部状態に関連するサイド情報は必ずしも信頼できるものではないかもしれないし、標準的なアプローチは、後悔を招くコンテキストリスクのみに依存している。
同様に、一部のユーザーはその後の状態間でより弱い相関関係を示し、同じリスクを負う状態遷移のみに依存するアプローチへと導かれる。
本手法は,従来のアルゴリズムに比べて経験的性能が向上することを示すとともに,その設定とアルゴリズムを後悔の下限と上限の観点で分析し,薬剤服用介入データと実世界データセットのシミュレーションによる評価を行った。
関連論文リスト
- Information Capacity Regret Bounds for Bandits with Mediator Feedback [55.269551124587224]
我々は,政策セットの複雑さに対する情報理論尺度として,政策セットの容量を導入する。
古典的なEXP4アルゴリズムを採用することで、ポリシーセットの容量に応じて、新たな後悔の限界を提供する。
ポリシーセットファミリの選択については、キャパシティと同じようなスケールで、ほぼ整合性の低い境界を証明します。
論文 参考訳(メタデータ) (2024-02-15T19:18:47Z) - Online learning in bandits with predicted context [8.257280652461159]
エージェントがコンテキストの騒々しいバージョンにしかアクセスできない場合、コンテキスト的帯域幅の問題を考える。
この設定は、意思決定の真のコンテキストが守られない広範囲のアプリケーションによって動機付けられている。
本研究では,この設定において,軽度条件下でのサブ線形後悔保証を用いた最初のオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-26T02:33:54Z) - OpenPI-C: A Better Benchmark and Stronger Baseline for Open-Vocabulary
State Tracking [55.62705574507595]
OpenPIは、オープン語彙状態トラッキング用に注釈付けされた唯一のデータセットである。
手順レベル,ステップレベル,状態変化レベルの3つの問題を分類する。
評価指標として,クラスタベースの計量法を提案する。
論文 参考訳(メタデータ) (2023-06-01T16:48:20Z) - Accelerating Reinforcement Learning with Value-Conditional State Entropy Exploration [97.19464604735802]
探索のための有望な技術は、訪問状態分布のエントロピーを最大化することである。
エージェントが高価値の状態を訪問することを好むような、タスク報酬を伴う教師付きセットアップで苦労する傾向があります。
本稿では,値条件のエントロピーを最大化する新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T01:09:28Z) - Continuous Mean-Covariance Bandits [39.820490484375156]
本稿では,選択肢相関を考慮した連続平均共分散帯域モデルを提案する。
CMCBでは、与えられた選択肢の重みベクトルを逐次選択し、決定に従ってランダムなフィードバックを観察する学習者がいる。
最適な後悔(対数的因子を含む)を伴う新しいアルゴリズムを提案し、それらの最適性を検証するために一致した下界を提供する。
論文 参考訳(メタデータ) (2021-02-24T06:37:05Z) - Blind Decision Making: Reinforcement Learning with Delayed Observations [43.126718159042305]
強化学習は、以前のアクションからの状態更新が瞬時に起こると仮定する。
状態更新が利用できない場合、現在の状態情報に依存することができないため、決定は一部盲目となる。
本稿では,国家の知識の遅れを生かし,利用可能な情報に基づいて意思決定を行うアプローチを提案する。
論文 参考訳(メタデータ) (2020-11-16T04:29:14Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。