論文の概要: Bandits with Partially Observable Confounded Data
- arxiv url: http://arxiv.org/abs/2006.06731v2
- Date: Tue, 10 Aug 2021 12:16:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 09:17:32.279244
- Title: Bandits with Partially Observable Confounded Data
- Title(参考訳): 部分可観測データ付きバンディット
- Authors: Guy Tennenholtz, Uri Shalit, Shie Mannor, Yonathan Efroni
- Abstract要約: この問題は,サイド情報を用いたバンドイット問題の変種と密接に関連していることを示す。
本稿では,予測情報を活用する線形帯域幅アルゴリズムを構築し,残差を証明した。
この結果から,オンライン学習アルゴリズムにおいて,オフラインデータの集約が著しく向上することが示唆された。
- 参考スコア(独自算出の注目度): 74.04376842070624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study linear contextual bandits with access to a large, confounded,
offline dataset that was sampled from some fixed policy. We show that this
problem is closely related to a variant of the bandit problem with side
information. We construct a linear bandit algorithm that takes advantage of the
projected information, and prove regret bounds. Our results demonstrate the
ability to take advantage of confounded offline data. Particularly, we prove
regret bounds that improve current bounds by a factor related to the visible
dimensionality of the contexts in the data. Our results indicate that
confounded offline data can significantly improve online learning algorithms.
Finally, we demonstrate various characteristics of our approach through
synthetic simulations.
- Abstract(参考訳): 固定されたポリシーからサンプリングした大規模なオフラインデータセットにアクセス可能な線形コンテキスト帯域について検討した。
この問題はサイド情報を含むバンディット問題の変種と密接に関連していることを示す。
我々は,投影された情報を利用した線形バンディットアルゴリズムを構築し,後悔の限界を証明する。
以上の結果から, オフラインデータの収集が可能であることを示す。
特に,データ中の文脈の可視的次元性に関連する要因によって,現在の境界を改善する後悔の限界を証明できる。
この結果から,オンライン学習アルゴリズムの精度は向上した。
最後に,本手法の様々な特性を合成シミュレーションにより示す。
関連論文リスト
- Robustly Improving Bandit Algorithms with Confounded and Selection
Biased Offline Data: A Causal Approach [18.13887411913371]
本稿では,エージェントが各アームの報酬分布の推定を改善するために使用可能なオフラインデータにアクセス可能な帯域幅問題について検討する。
我々はバイアスを、それらが示唆する因果構造に基づいて、矛盾するバイアスと選択バイアスに分類する。
我々は、偏りのある観測データから、複合バイアスに対して頑健な各腕の因果関係を抽出する。
論文 参考訳(メタデータ) (2023-12-20T03:03:06Z) - Optimal Best-Arm Identification in Bandits with Access to Offline Data [27.365122983434887]
オフラインデータとオンライン学習を組み合わせることを検討する。
差分$が小さい場合、サンプルの複雑さに基づいて低い境界に一致するアルゴリズムを開発する。
我々のアルゴリズムは, サンプル当たりの平均取得コストが$tildeO(K)$で計算的に効率的であり, 下界問題の最適条件の注意深い評価に頼っている。
論文 参考訳(メタデータ) (2023-06-15T11:12:35Z) - Bridging Imitation and Online Reinforcement Learning: An Optimistic Tale [27.02990488317357]
不完全な専門家によるオフラインのデモンストレーションデータセットを前提として、MDPのオンライン学習パフォーマンスをブートストラップする上で、それを活用するための最善の方法は何か?
Informed Posterior Sampling-based RL (iPSRL)アルゴリズムを最初に提案する。
このアルゴリズムは非現実的であるため、オンラインRLのためのRSVIアルゴリズムと模倣学習を組み合わせたiRLSVIアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-20T18:16:25Z) - A Unified Framework of Policy Learning for Contextual Bandit with
Confounding Bias and Missing Observations [108.89353070722497]
本研究では,観測データを用いた最適ポリシの獲得を目的とした,オフラインのコンテキスト的帯域幅問題について検討する。
本稿では、積分方程式系の解として報酬関数を形成するCausal-Adjusted Pessimistic(CAP)ポリシー学習という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-20T15:17:31Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Shuffled linear regression through graduated convex relaxation [12.614901374282868]
シャッフル線形回帰問題は、入力と出力の対応が不明なデータセットにおける線形関係を復元することを目的としている。
この問題は、調査データを含む広範囲のアプリケーションで発生する。
後最大化目的関数に基づく線形回帰をシャッフルする新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:33:48Z) - Online Limited Memory Neural-Linear Bandits with Likelihood Matching [53.18698496031658]
本研究では,探索学習と表現学習の両方が重要な役割を果たす課題を解決するために,ニューラルネットワークの帯域について検討する。
破滅的な忘れ込みに対して耐性があり、完全にオンラインである可能性の高いマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T14:19:07Z) - Active Online Learning with Hidden Shifting Domains [64.75186088512034]
本稿では,その後悔度とラベルクエリ数とを適応的にバランスさせる,驚くほど単純なアルゴリズムを提案する。
我々のアルゴリズムは、異なる領域からの入力のインターリービングスパンを適応的に処理できる。
論文 参考訳(メタデータ) (2020-06-25T15:23:59Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - On Under-exploration in Bandits with Mean Bounds from Confounded Data [41.09427248084205]
本稿では,各アームの平均値に有界な側面情報を提供するマルチアームバンディット問題の変種について検討する。
我々は,提案した平均値を用いた非最適グローバルアンダーエクスプローラー(GLUE)アルゴリズムを開発した。
このようなログから平均境界を自然に推定することができ、それによって学習プロセスを改善することができることを示す。
論文 参考訳(メタデータ) (2020-02-19T19:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。