論文の概要: Kernel-Based Function Approximation for Average Reward Reinforcement Learning: An Optimist No-Regret Algorithm
- arxiv url: http://arxiv.org/abs/2410.23498v1
- Date: Wed, 30 Oct 2024 23:04:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:03:47.806659
- Title: Kernel-Based Function Approximation for Average Reward Reinforcement Learning: An Optimist No-Regret Algorithm
- Title(参考訳): 平均回帰強化学習のためのカーネル関数近似:最適化的非回帰アルゴリズム
- Authors: Sattar Vakili, Julia Olkhovskaya,
- Abstract要約: 無限水平平均報酬設定における近似RLのカーネル関数について考察する。
本稿では,バンディットの特別な場合において,取得関数に基づくアルゴリズムと類似した楽観的なアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 11.024396385514864
- License:
- Abstract: Reinforcement learning utilizing kernel ridge regression to predict the expected value function represents a powerful method with great representational capacity. This setting is a highly versatile framework amenable to analytical results. We consider kernel-based function approximation for RL in the infinite horizon average reward setting, also referred to as the undiscounted setting. We propose an optimistic algorithm, similar to acquisition function based algorithms in the special case of bandits. We establish novel no-regret performance guarantees for our algorithm, under kernel-based modelling assumptions. Additionally, we derive a novel confidence interval for the kernel-based prediction of the expected value function, applicable across various RL problems.
- Abstract(参考訳): 期待値関数を予測するためにカーネルリッジ回帰を用いた強化学習は,表現能力の高い強力な手法である。
この設定は非常に多目的なフレームワークであり、分析的な結果が得られる。
無限地平線平均報酬設定におけるRLのカーネル関数近似を非カウント設定(undiscounted set)と呼ぶ。
本稿では,バンディットの特別な場合において,取得関数に基づくアルゴリズムと類似した楽観的なアルゴリズムを提案する。
我々は,カーネル・ベース・モデリングの仮定の下で,アルゴリズムの性能保証を新たに確立する。
さらに、期待値関数のカーネルベース予測のための新しい信頼区間を導出し、様々なRL問題に適用する。
関連論文リスト
- Scalable Kernel Inverse Optimization [2.799896314754615]
逆最適化は、専門家の意思決定者の未知の目的関数を過去のデータセットから学習するためのフレームワークである。
我々は IO 目的関数の仮説クラスをカーネルヒルベルト空間の再現に拡張する。
代表者定理の変種が特定の訓練損失を負うことを示し、有限次元凸最適化プログラムとして問題の再構成を可能にする。
論文 参考訳(メタデータ) (2024-10-31T14:06:43Z) - Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Promises and Pitfalls of the Linearized Laplace in Bayesian Optimization [73.80101701431103]
線形化ラプラス近似(LLA)はベイズニューラルネットワークの構築に有効で効率的であることが示されている。
ベイズ最適化におけるLLAの有用性について検討し,その性能と柔軟性を強調した。
論文 参考訳(メタデータ) (2023-04-17T14:23:43Z) - Statistical Optimality of Divide and Conquer Kernel-based Functional
Linear Regression [1.7227952883644062]
本稿では,対象関数が基礎となるカーネル空間に存在しないシナリオにおいて,分割・コンカレント推定器の収束性能について検討する。
分解に基づくスケーラブルなアプローチとして、関数線形回帰の分割・収束推定器は、時間とメモリにおけるアルゴリズムの複雑さを大幅に減らすことができる。
論文 参考訳(メタデータ) (2022-11-20T12:29:06Z) - Importance Weighting Approach in Kernel Bayes' Rule [43.221685127485735]
本研究では,特徴量を用いたベイズ計算における非パラメトリック手法について検討する。
ベイズ更新に関わる全ての量は観測データから学習され、この手法は完全にモデル無しである。
提案手法は重要度重み付けに基づいており,既存のKBR手法よりも優れた数値安定性が得られる。
論文 参考訳(メタデータ) (2022-02-05T03:06:59Z) - Meta-Learning Hypothesis Spaces for Sequential Decision-making [79.73213540203389]
オフラインデータ(Meta-KeL)からカーネルをメタ学習することを提案する。
穏やかな条件下では、推定されたRKHSが有効な信頼セットを得られることを保証します。
また,ベイズ最適化におけるアプローチの有効性を実証的に評価した。
論文 参考訳(メタデータ) (2022-02-01T17:46:51Z) - Sparse Bayesian Learning via Stepwise Regression [1.2691047660244335]
我々は、RMP(Relevance Matching Pursuit)と呼ばれるSBLのための座標加算アルゴリズムを提案する。
ノイズ分散パラメータがゼロになるにつれて、RMPはステップワイド回帰と驚くべき関係を示す。
ステップワイド回帰アルゴリズムの新たな保証を導き、RMPにも光を当てる。
論文 参考訳(メタデータ) (2021-06-11T00:20:27Z) - From Majorization to Interpolation: Distributionally Robust Learning
using Kernel Smoothing [1.2891210250935146]
確率指標に基づく分布的ロバスト最適化(DRO)の関数近似の側面を検討する。
本稿では,滑らかな関数近似と畳み込みに基づく堅牢な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-16T22:25:18Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。