論文の概要: Provably Efficient Learning in Partially Observable Contextual Bandit
- arxiv url: http://arxiv.org/abs/2308.03572v2
- Date: Mon, 4 Sep 2023 11:41:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 03:47:24.513051
- Title: Provably Efficient Learning in Partially Observable Contextual Bandit
- Title(参考訳): 部分観測可能なコンテキスト帯域における確率的学習
- Authors: Xueping Gong and Jiheng Zhang
- Abstract要約: 古典的帯域幅アルゴリズムの改善に因果境界をどのように適用できるかを示す。
本研究は,実世界の応用における文脈的包括的エージェントの性能を高める可能性を秘めている。
- 参考スコア(独自算出の注目度): 4.910658441596583
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this paper, we investigate transfer learning in partially observable
contextual bandits, where agents have limited knowledge from other agents and
partial information about hidden confounders. We first convert the problem to
identifying or partially identifying causal effects between actions and rewards
through optimization problems. To solve these optimization problems, we
discretize the original functional constraints of unknown distributions into
linear constraints, and sample compatible causal models via sequentially
solving linear programmings to obtain causal bounds with the consideration of
estimation error. Our sampling algorithms provide desirable convergence results
for suitable sampling distributions. We then show how causal bounds can be
applied to improving classical bandit algorithms and affect the regrets with
respect to the size of action sets and function spaces. Notably, in the task
with function approximation which allows us to handle general context
distributions, our method improves the order dependence on function space size
compared with previous literatures. We formally prove that our causally
enhanced algorithms outperform classical bandit algorithms and achieve orders
of magnitude faster convergence rates. Finally, we perform simulations that
demonstrate the efficiency of our strategy compared to the current
state-of-the-art methods. This research has the potential to enhance the
performance of contextual bandit agents in real-world applications where data
is scarce and costly to obtain.
- Abstract(参考訳): 本稿では,エージェントが他のエージェントからの知識や隠れた共同設立者に関する情報を限定した,部分的に観察可能なコンテキストバンディットにおける転送学習について検討する。
まず、最適化問題を通じて、行動と報酬の間の因果効果を識別または部分的に識別する。
これらの最適化問題を解決するために、未知分布の本来の機能的制約を線形制約に分類し、線形プログラミングを逐次解き、推定誤差を考慮した因果境界を求める。
サンプリングアルゴリズムは適切なサンプリング分布に対して望ましい収束結果を与える。
次に,因果境界を古典的なバンディットアルゴリズムの改善に適用し,動作集合や関数空間の大きさに対する後悔に影響を与えることを示す。
特に,一般的な文脈分布を処理可能な関数近似のタスクでは,従来の文献と比較して関数空間サイズの順序依存性が改善される。
因果的に拡張されたアルゴリズムが古典的なバンディットアルゴリズムよりも優れており、収束率が桁違いに速いことを正式に証明する。
最後に,現在の最先端手法と比較して,戦略の効率性を示すシミュレーションを行う。
本研究は,データが少なく,取得に費用がかかる実世界のアプリケーションにおいて,文脈的盗聴エージェントの性能を向上させる可能性がある。
関連論文リスト
- Efficient Differentiable Discovery of Causal Order [14.980926991441342]
Intersortは、変数の因果順序を発見するためのスコアベースの方法である。
我々は、差別化可能なソートとランキング技術を用いてインターソートを再構築する。
我々の研究は、因果順の正規化を微分可能なモデルの訓練に効率的に組み込むための扉を開く。
論文 参考訳(メタデータ) (2024-10-11T13:11:55Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Federated Learning for Heterogeneous Bandits with Unobserved Contexts [0.0]
我々は、未知のコンテキストを持つ多腕コンテキスト包帯のフェデレーション問題について検討する。
線形パラメタライズされた報酬関数に対して,除去に基づくアルゴリズムを提案し,後悔の束縛を証明した。
論文 参考訳(メタデータ) (2023-03-29T22:06:24Z) - Multivariate Systemic Risk Measures and Computation by Deep Learning
Algorithms [63.03966552670014]
本稿では,主観的最適度と関連するリスク割り当ての公平性に着目し,重要な理論的側面について論じる。
私たちが提供しているアルゴリズムは、予備項の学習、二重表現の最適化、およびそれに対応する公正なリスク割り当てを可能にします。
論文 参考訳(メタデータ) (2023-02-02T22:16:49Z) - Large-Scale Sequential Learning for Recommender and Engineering Systems [91.3755431537592]
本稿では,現在の状況に適応してパーソナライズされたランキングを提供する自動アルゴリズムの設計に焦点を当てる。
前者はSAROSと呼ばれる新しいアルゴリズムを提案し,インタラクションの順序を学習するためのフィードバックの種類を考慮に入れている。
提案手法は, 電力網の故障検出に対する初期アプローチと比較して, 統計的に有意な結果を示す。
論文 参考訳(メタデータ) (2022-05-13T21:09:41Z) - Contextual Model Aggregation for Fast and Robust Federated Learning in
Edge Computing [88.76112371510999]
フェデレーション学習は、ネットワークエッジにおける分散機械学習の第一候補である。
既存のアルゴリズムは、性能の緩やかな収束や堅牢性の問題に直面している。
そこで本稿では,損失低減に対する最適コンテキスト依存境界を実現するためのコンテキストアグリゲーション手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T21:42:31Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - Experimental Design for Regret Minimization in Linear Bandits [19.8309784360219]
オンライン・リニア・バンドレットにおける後悔を最小限に抑える設計に基づく新しいアルゴリズムを提案する。
我々は、現在最先端の有限時間後悔保証を提供し、このアルゴリズムが帯域幅と半帯域幅の両方のフィードバックシステムに適用可能であることを示す。
論文 参考訳(メタデータ) (2020-11-01T17:59:19Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Adaptive Discretization for Model-Based Reinforcement Learning [10.21634042036049]
本稿では,適応離散化手法を導入し,効率的なモデルに基づくエピソード強化学習アルゴリズムを設計する。
我々のアルゴリズムは、空間の適応的な離散化を維持するために拡張された楽観的なワンステップ値反復に基づいている。
論文 参考訳(メタデータ) (2020-07-01T19:36:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。