論文の概要: Information-Gathering in Latent Bandits
- arxiv url: http://arxiv.org/abs/2207.03635v1
- Date: Fri, 8 Jul 2022 01:15:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-11 14:01:56.409821
- Title: Information-Gathering in Latent Bandits
- Title(参考訳): 潜在バンディットにおける情報収集
- Authors: Alexander Galozy, Slawomir Nowaczyk
- Abstract要約: 本稿では,潜伏バンドにおける情報収集手法を提案する。
我々は、各州に対するエージェントの信念から、最高の腕を選ぶことは、より高い後悔を引き起こすことを示した。
また,腕を慎重に選択することで,状態分布の推定精度が向上することを示した。
- 参考スコア(独自算出の注目度): 79.6953033727455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the latent bandit problem, the learner has access to reward distributions
and -- for the non-stationary variant -- transition models of the environment.
The reward distributions are conditioned on the arm and unknown latent states.
The goal is to use the reward history to identify the latent state, allowing
for the optimal choice of arms in the future. The latent bandit setting lends
itself to many practical applications, such as recommender and decision support
systems, where rich data allows the offline estimation of environment models
with online learning remaining a critical component. Previous solutions in this
setting always choose the highest reward arm according to the agent's beliefs
about the state, not explicitly considering the value of information-gathering
arms. Such information-gathering arms do not necessarily provide the highest
reward, thus may never be chosen by an agent that chooses the highest reward
arms at all times.
In this paper, we present a method for information-gathering in latent
bandits. Given particular reward structures and transition matrices, we show
that choosing the best arm given the agent's beliefs about the states incurs
higher regret. Furthermore, we show that by choosing arms carefully, we obtain
an improved estimation of the state distribution, and thus lower the cumulative
regret through better arm choices in the future. We evaluate our method on both
synthetic and real-world data sets, showing significant improvement in regret
over state-of-the-art methods.
- Abstract(参考訳): 潜在的なバンディット問題では、学習者は報酬分布にアクセスでき、非定常変種の場合、環境の遷移モデルを利用できる。
報酬分布は腕と未知の潜伏状態に条件付けられている。
目標は、報酬履歴を使って潜伏状態を特定することで、将来最適な武器選択を可能にすることである。
遅延バンディット設定は、リコメンデータや意思決定支援システムなど多くの実践的応用に役立ち、リッチデータによってオンライン学習を伴う環境モデルのオフライン推定が重要なコンポーネントとして残されている。
この設定の以前の解決策は、情報収集武器の価値を明示的に考慮せず、エージェントの国家に対する信念に従って、常に最高の報酬アームを選択する。
このような情報収集アームは、必ずしも最高の報酬を提供するものではないため、常に最高の報酬アームを選択するエージェントによって選択されることはない。
本稿では,潜伏バンディットにおける情報収集手法を提案する。
特定の報酬構造と遷移行列が与えられた場合、状態に対するエージェントの信念が与えられたベストアームの選択は、より高い後悔を引き起こすことを示す。
さらに, 腕を慎重に選択することで, 状態分布の推定精度が向上し, 将来的な腕選択により累積的後悔度が低下することを示す。
提案手法は, 合成と実世界の両方のデータセットで評価され, 最先端の手法に対する後悔の度合いが著しく向上した。
関連論文リスト
- Optimal Best Arm Identification with Fixed Confidence in Restless Bandits [66.700654953613]
本研究は,有限個の腕を持つレスレス・マルチアーム・バンディット・セッティングにおけるベスト・アーム識別について検討する。
各アームによって生成された離散時間データは、共通の有限状態空間で値を取る同質マルコフ連鎖を形成する。
その結果,あるマルコフ決定過程の長期的挙動の追跡とその状態-行動的訪問比率が,逆および達成可能性境界を解析するための重要な要素であることが示唆された。
論文 参考訳(メタデータ) (2023-10-20T10:04:05Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Covariance Adaptive Best Arm Identification [0.0]
ゴールは、腕のプル数を最小化しながら、最低でも1-$delta$の確率で腕を最も平均的な報酬で識別することである。
武器を頼りにでき、報酬を同時にサンプリングできる、より柔軟なシナリオを提案する。
この枠組みは、患者と薬物の類似性から根底にある相関関係が示唆される臨床試験など、様々な応用に関係している。
論文 参考訳(メタデータ) (2023-06-05T06:57:09Z) - Repeated Principal-Agent Games with Unobserved Agent Rewards and
Perfect-Knowledge Agents [5.773269033551628]
マルチアーム・バンディット(MAB)フレームワークにおいて,繰り返しプリンシパルエージェントゲームを行うシナリオについて検討する。
我々はまず,各バンドバンドアームに対するエージェントの期待報酬に対する推定器を構築することで,ポリシーを設計する。
我々は,協調輸送計画から実生活環境への政策の適用性を示す数値シミュレーションで結論付けた。
論文 参考訳(メタデータ) (2023-04-14T21:57:16Z) - Incentive-Aware Recommender Systems in Two-Sided Markets [49.692453629365204]
最適性能を達成しつつエージェントのインセンティブと整合する新しいレコメンデータシステムを提案する。
我々のフレームワークは、このインセンティブを意識したシステムを、両側市場におけるマルチエージェントバンディット問題としてモデル化する。
どちらのアルゴリズムも、エージェントが過剰な露出から保護する、ポストフェアネス基準を満たす。
論文 参考訳(メタデータ) (2022-11-23T22:20:12Z) - Best Arm Identification in Restless Markov Multi-Armed Bandits [85.55466536537293]
マルチアームバンディット環境における最適な腕を特定することの問題点について検討する。
決定エンティティは、上限誤差確率を条件として、ベストアームのインデックスをできるだけ早く見つけることを希望する。
このポリシーは、$R$に依存する上限を達成し、$Rtoinfty$として単調に増加しないことを示す。
論文 参考訳(メタデータ) (2022-03-29T04:58:04Z) - The Role of Contextual Information in Best Arm Identification [13.651941268805693]
本研究では,帯域でコンテキスト情報が得られる場合に,信頼度を固定したベストアーム識別問題について検討する。
この問題に対して、インスタンス固有のサンプル複雑性の低い境界を示す。
我々は、文脈情報がより高速なベストアーム識別に寄与することを実験的に確認する。
論文 参考訳(メタデータ) (2021-06-26T18:39:38Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。