論文の概要: Greedy Bandits with Sampled Context
- arxiv url: http://arxiv.org/abs/2007.16001v1
- Date: Mon, 27 Jul 2020 17:17:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 07:45:26.412587
- Title: Greedy Bandits with Sampled Context
- Title(参考訳): サンプルコンテキストによるグリーディバンド
- Authors: Dom Huh
- Abstract要約: Greedy Bandits with Sampled Context (GB-SC) は、コンテキスト情報から事前の開発を行うためのコンテキスト多重武装バンディットの手法である。
以上の結果から,Mushroom環境において,期待される後悔と期待される累積的後悔の両面での競争性能が示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bayesian strategies for contextual bandits have proved promising in
single-state reinforcement learning tasks by modeling uncertainty using context
information from the environment. In this paper, we propose Greedy Bandits with
Sampled Context (GB-SC), a method for contextual multi-armed bandits to develop
the prior from the context information using Thompson Sampling, and arm
selection using an epsilon-greedy policy. The framework GB-SC allows for
evaluation of context-reward dependency, as well as providing robustness for
partially observable context vectors by leveraging the prior developed. Our
experimental results show competitive performance on the Mushroom environment
in terms of expected regret and expected cumulative regret, as well as insights
on how each context subset affects decision-making.
- Abstract(参考訳): 環境からのコンテキスト情報を用いて不確実性をモデル化することにより,一状態強化学習タスクにおいてベイズ的手法が有望であることが証明された。
本稿では,Thompson Smplingを用いた文脈情報と,Epsilon-greedyポリシを用いたアームセレクションから,コンテキスト的マルチアームバンディットを事前開発する手法であるGreedy Bandits with Sampled Context (GB-SC)を提案する。
GB-SCフレームワークは、コンテキスト逆依存性の評価と、以前に開発されたコンテキストベクターを部分的に利用することで、部分的に観測可能なコンテキストベクターの堅牢性を提供する。
実験の結果,Mushroom環境において,期待される後悔と期待される累積的後悔と,各文脈のサブセットが意思決定にどう影響するかの知見を比較検討した。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - Information Capacity Regret Bounds for Bandits with Mediator Feedback [55.269551124587224]
我々は,政策セットの複雑さに対する情報理論尺度として,政策セットの容量を導入する。
古典的なEXP4アルゴリズムを採用することで、ポリシーセットの容量に応じて、新たな後悔の限界を提供する。
ポリシーセットファミリの選択については、キャパシティと同じようなスケールで、ほぼ整合性の低い境界を証明します。
論文 参考訳(メタデータ) (2024-02-15T19:18:47Z) - Thompson Sampling for Stochastic Bandits with Noisy Contexts: An Information-Theoretic Regret Analysis [4.297070083645049]
本研究では,エージェントが真コンテキストのノイズや破損したバージョンを観測するコンテキスト線形帯域問題について検討する。
我々の目標は、託宣の「近似可能なアクションポリシー」を設計することである。
論文 参考訳(メタデータ) (2024-01-21T18:57:38Z) - Online learning in bandits with predicted context [8.257280652461159]
エージェントがコンテキストの騒々しいバージョンにしかアクセスできない場合、コンテキスト的帯域幅の問題を考える。
この設定は、意思決定の真のコンテキストが守られない広範囲のアプリケーションによって動機付けられている。
本研究では,この設定において,軽度条件下でのサブ線形後悔保証を用いた最初のオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-26T02:33:54Z) - Thompson Sampling Regret Bounds for Contextual Bandits with sub-Gaussian
rewards [44.025369660607645]
文脈帯域問題に対するトンプソンサンプリングアルゴリズムの性能について検討する。
ガウス以南の報奨に充てられる情報比率の引き上げに関する新たな限界を導入する。
論文 参考訳(メタデータ) (2023-04-26T14:40:01Z) - Contextual bandits with concave rewards, and an application to fair
ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。
我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。
推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文 参考訳(メタデータ) (2022-10-18T16:11:55Z) - Worst-case Performance of Greedy Policies in Bandits with Imperfect
Context Observations [1.370633147306388]
この研究は、パラメータと観測されていないコンテキストの現在の推定値が対応する真の値と一致するかのように行動をとるグレディ強化学習ポリシーを考察する。
非漸近的な最悪の後悔は、時間軸や失敗確率と対数的に増大する一方、腕の数と線形にスケールする。
論文 参考訳(メタデータ) (2022-04-10T21:27:56Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Stochastic Linear Contextual Bandits with Diverse Contexts [17.35270010828849]
文脈が十分に多様である場合、学習者は、エクスプロイト時に得られた情報を利用して探索過程を短縮できることを示す。
我々はLinUCB-dアルゴリズムを設計し、その後悔する性能を解析するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-03-05T14:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。