論文の概要: Recurrent Neural-Linear Posterior Sampling for Non-Stationary Contextual
Bandits
- arxiv url: http://arxiv.org/abs/2007.04750v1
- Date: Thu, 9 Jul 2020 12:46:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 03:31:50.039357
- Title: Recurrent Neural-Linear Posterior Sampling for Non-Stationary Contextual
Bandits
- Title(参考訳): 非定常帯域に対するリカレントニューラルLinear Posterior Smpling
- Authors: Aditya Ramesh, Paulo Rauber, J\"urgen Schmidhuber
- Abstract要約: 本稿では,エージェントと環境間のインタラクションの生履歴のみに基づいて,意思決定の関連状況を表現する手法を提案する。
文脈的および非文脈的非定常問題の多種多様な選択に関する実験により、反復的アプローチがフィードフォワードよりも一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 6.963815944782395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An agent in a non-stationary contextual bandit problem should balance between
exploration and the exploitation of (periodic or structured) patterns present
in its previous experiences. Handcrafting an appropriate historical context is
an attractive alternative to transform a non-stationary problem into a
stationary problem that can be solved efficiently. However, even a carefully
designed historical context may introduce spurious relationships or lack a
convenient representation of crucial information. In order to address these
issues, we propose an approach that learns to represent the relevant context
for a decision based solely on the raw history of interactions between the
agent and the environment. This approach relies on a combination of features
extracted by recurrent neural networks with a contextual linear bandit
algorithm based on posterior sampling. Our experiments on a diverse selection
of contextual and non-contextual non-stationary problems show that our
recurrent approach consistently outperforms its feedforward counterpart, which
requires handcrafted historical contexts, while being more widely applicable
than conventional non-stationary bandit algorithms.
- Abstract(参考訳): 非定常的文脈的包帯問題のエージェントは、探索と以前の経験に存在する(周期的または構造化された)パターンの活用のバランスをとるべきである。
適切な歴史的文脈を手作りすることは、非定常問題を効率的に解決できる定常問題に変換する魅力的な方法である。
しかし、慎重に設計された歴史的文脈でさえ、急激な関係や重要な情報の便利な表現が欠如している可能性がある。
これらの課題に対処するために,エージェントと環境間の相互作用の生履歴のみに基づいて,意思決定の関連文脈を表現することを学ぶアプローチを提案する。
このアプローチは、リカレントニューラルネットワークによって抽出された特徴と、後続サンプリングに基づく文脈線形帯域アルゴリズムの組み合わせに依存する。
文脈的および非文脈的非定常問題の多様な選択に関する実験は、我々の再帰的アプローチが、従来の非定常バンディットアルゴリズムよりも広く適用されながら、手作りの歴史的文脈を必要とするフィードフォワードのアプローチを一貫して上回っていることを示している。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Neural Contextual Bandits for Personalized Recommendation [49.85090929163639]
本チュートリアルでは、パーソナライズされたレコメンデーションのための強力なフレームワークとして、コンテキスト帯について検討する。
我々は、リコメンデーターシステムにおける「マシュー効果」を緩和するために、文脈的盗賊の探索的視点に焦点を当てる。
従来の線形文脈包帯に加えて、我々は神経文脈包帯にも焦点をあてる。
論文 参考訳(メタデータ) (2023-12-21T17:03:26Z) - Non-Stationary Contextual Bandit Learning via Neural Predictive Ensemble
Sampling [15.88678122212934]
文脈的包帯の現実世界の応用は、季節性、セレンディピティー、進化する社会トレンドによって、しばしば非定常性を示す。
これらの問題に対処する新しい非定常文脈帯域幅アルゴリズムを提案する。
スケーラブルでディープ・ニューラル・ネットワークベースのアーキテクチャと、慎重に設計された探索機構を組み合わせる。
論文 参考訳(メタデータ) (2023-10-11T18:15:55Z) - Online learning in bandits with predicted context [8.257280652461159]
エージェントがコンテキストの騒々しいバージョンにしかアクセスできない場合、コンテキスト的帯域幅の問題を考える。
この設定は、意思決定の真のコンテキストが守られない広範囲のアプリケーションによって動機付けられている。
本研究では,この設定において,軽度条件下でのサブ線形後悔保証を用いた最初のオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-26T02:33:54Z) - Federated Learning for Heterogeneous Bandits with Unobserved Contexts [0.0]
我々は、未知のコンテキストを持つ多腕コンテキスト包帯のフェデレーション問題について検討する。
線形パラメタライズされた報酬関数に対して,除去に基づくアルゴリズムを提案し,後悔の束縛を証明した。
論文 参考訳(メタデータ) (2023-03-29T22:06:24Z) - A Unified Framework of Policy Learning for Contextual Bandit with
Confounding Bias and Missing Observations [108.89353070722497]
本研究では,観測データを用いた最適ポリシの獲得を目的とした,オフラインのコンテキスト的帯域幅問題について検討する。
本稿では、積分方程式系の解として報酬関数を形成するCausal-Adjusted Pessimistic(CAP)ポリシー学習という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-20T15:17:31Z) - From Contextual Data to Newsvendor Decisions: On the Actual Performance
of Data-Driven Algorithms [2.9603743540540357]
本研究では,過去のデータとの関連性と量が,データ駆動型ポリシーの性能に与える影響について検討する。
我々は,「密接な状況下で観察された過去の要求は,分布の密接な関係から生じると考える。
論文 参考訳(メタデータ) (2023-02-16T17:03:39Z) - Hypothesis Transfer in Bandits by Weighted Models [8.759884299087835]
我々は,仮説伝達学習の設定において,文脈的マルチアームバンディットの問題を考える。
転送が望まれる場合に,古典的リニア UCB に対する後悔の軽減を示す再重み付け方式を示す。
さらに,この手法を任意の量のソースモデルに拡張し,各ステップでどのモデルが好まれるかをアルゴリズムが決定する。
論文 参考訳(メタデータ) (2022-11-14T14:13:02Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z) - Parallelizing Contextual Linear Bandits [82.65675585004448]
並列な)コンテキスト線形バンディットアルゴリズムの族を提示し、その遺残はそれらの完全シーケンシャルなアルゴリズムとほぼ同一である。
また,これらの並列アルゴリズムについて,材料発見や生物配列設計の問題など,いくつかの領域で実証評価を行った。
論文 参考訳(メタデータ) (2021-05-21T22:22:02Z) - Differentiable Causal Discovery from Interventional Data [141.41931444927184]
本稿では、介入データを活用可能なニューラルネットワークに基づく理論的基盤化手法を提案する。
提案手法は,様々な環境下での美術品の状態と良好に比較できることを示す。
論文 参考訳(メタデータ) (2020-07-03T15:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。