論文の概要: Nonparametric Bellman Mappings for Reinforcement Learning: Application to Robust Adaptive Filtering
- arxiv url: http://arxiv.org/abs/2403.20020v1
- Date: Fri, 29 Mar 2024 07:15:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 16:15:12.257273
- Title: Nonparametric Bellman Mappings for Reinforcement Learning: Application to Robust Adaptive Filtering
- Title(参考訳): 強化学習のための非パラメトリックベルマン写像:ロバスト適応フィルタリングへの応用
- Authors: Yuki Akiyama, Minh Vu, Konstantinos Slavakis,
- Abstract要約: 本稿では、強化学習(RL)のための再生カーネルヒルベルト空間(RKHS)における新しい非パラメトリックベルマン写像を設計する。
提案したマッピングは、RKHSのリッチな近似特性の恩恵を受け、非パラメトリックな性質のためデータの統計に仮定を適用せず、トレーニングデータなしで運用することができる。
応用として, 適応フィルタリングにおける外れ値の対応問題に対する新しい解決策を提供するために, 提案した写像を用いる。
- 参考スコア(独自算出の注目度): 3.730504020733928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper designs novel nonparametric Bellman mappings in reproducing kernel Hilbert spaces (RKHSs) for reinforcement learning (RL). The proposed mappings benefit from the rich approximating properties of RKHSs, adopt no assumptions on the statistics of the data owing to their nonparametric nature, require no knowledge on transition probabilities of Markov decision processes, and may operate without any training data. Moreover, they allow for sampling on-the-fly via the design of trajectory samples, re-use past test data via experience replay, effect dimensionality reduction by random Fourier features, and enable computationally lightweight operations to fit into efficient online or time-adaptive learning. The paper offers also a variational framework to design the free parameters of the proposed Bellman mappings, and shows that appropriate choices of those parameters yield several popular Bellman-mapping designs. As an application, the proposed mappings are employed to offer a novel solution to the problem of countering outliers in adaptive filtering. More specifically, with no prior information on the statistics of the outliers and no training data, a policy-iteration algorithm is introduced to select online, per time instance, the ``optimal'' coefficient p in the least-mean-p-power-error method. Numerical tests on synthetic data showcase, in most of the cases, the superior performance of the proposed solution over several RL and non-RL schemes.
- Abstract(参考訳): 本稿では、強化学習(RL)のためのカーネルヒルベルト空間(RKHS)の新たな非パラメトリックベルマン写像を設計する。
提案したマッピングは、RKHSのリッチな近似特性の恩恵を受け、非パラメトリックな性質のためデータの統計に関する仮定を採用せず、マルコフ決定過程の遷移確率に関する知識も必要とせず、いかなる訓練データも必要とせず運用することができる。
さらに、軌道サンプルの設計によるオンザフライのサンプリング、経験的な再生による過去のテストデータの再使用、ランダムなフーリエ特徴による効果次元の削減、オンラインや時間順応的な学習に計算的に軽量な操作が適合することを可能にする。
提案したベルマン写像の自由パラメータを設計するための変分フレームワークも提供し、それらのパラメータの適切な選択がベルマンマッピングの設計に人気があることを示す。
応用として, 適応フィルタリングにおける外れ値の対応問題に対する新しい解決策を提供するために, 提案した写像を用いる。
より具体的には、アウトレーヤの統計に関する事前情報がなく、トレーニングデータもないため、最小平均pパワーエラー法における「最適」係数pをオンラインに選択するためのポリシイテレーションアルゴリズムが導入された。
合成データに関する数値実験では、ほとんどの場合、いくつかのRLおよび非RLスキームに対して提案された解の優れた性能を示す。
関連論文リスト
- Proximal Bellman mappings for reinforcement learning and their
application to robust adaptive filtering [4.140907550856865]
本稿ではベルマン写像の新しいクラスを紹介する。
写像は、カーネルヒルベルト空間の再現で定義される。
提案した写像のクラスに近似的なポリシイテレーションスキームを構築した。
論文 参考訳(メタデータ) (2023-09-14T09:20:21Z) - Low-rank extended Kalman filtering for online learning of neural
networks from streaming data [71.97861600347959]
非定常データストリームから非線形関数のパラメータを推定するための効率的なオンライン近似ベイズ推定アルゴリズムを提案する。
この方法は拡張カルマンフィルタ (EKF) に基づいているが、新しい低ランク+斜角行列分解法を用いている。
変分推論に基づく手法とは対照的に,本手法は完全に決定論的であり,ステップサイズチューニングを必要としない。
論文 参考訳(メタデータ) (2023-05-31T03:48:49Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - online and lightweight kernel-based approximated policy iteration for
dynamic p-norm linear adaptive filtering [8.319127681936815]
本稿では, 線形適応フィルタリングにおいて, 最適p-ノルムを動的(オンライン)に選択する問題の解を提案する。
提案するフレームワークはカーネルベース強化学習(KBRL)に基づいている。
論文 参考訳(メタデータ) (2022-10-21T06:29:01Z) - Dynamic selection of p-norm in linear adaptive filtering via online
kernel-based reinforcement learning [8.319127681936815]
本研究は, 線形適応フィルタリングにおいて, 最適p-ノルムが外れ値と競合する問題に対して, 動的に選択する問題に対処する。
オンラインおよびデータ駆動型フレームワークはカーネルベース強化学習(KBRL)によって設計される
論文 参考訳(メタデータ) (2022-10-20T14:49:39Z) - A Provably Efficient Model-Free Posterior Sampling Method for Episodic
Reinforcement Learning [50.910152564914405]
強化学習のための既存の後方サンプリング手法は、モデルベースであるか、線形MDPを超える最悪の理論的保証がないかによって制限される。
本稿では,理論的保証を伴うより一般的な補足的強化学習問題に適用可能な,後部サンプリングのモデルフリーな新しい定式化を提案する。
論文 参考訳(メタデータ) (2022-08-23T12:21:01Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Adaptive Client Sampling in Federated Learning via Online Learning with
Bandit Feedback [36.05851452151107]
統合学習(FL)システムは、トレーニングの各ラウンドに関与するクライアントのサブセットをサンプリングする必要があります。
その重要性にもかかわらず、クライアントを効果的にサンプリングする方法には制限がある。
提案手法は,最適化アルゴリズムの収束速度をいかに向上させるかを示す。
論文 参考訳(メタデータ) (2021-12-28T23:50:52Z) - Solving Multistage Stochastic Linear Programming via Regularized Linear
Decision Rules: An Application to Hydrothermal Dispatch Planning [77.34726150561087]
AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。
実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。
LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
論文 参考訳(メタデータ) (2021-10-07T02:36:14Z) - A Heuristic for Dynamic Output Predictive Control Design for Uncertain
Nonlinear Systems [0.0]
学習データセットを効率的に構築し、各ソリューションが学習データに多くのサンプルを提供する。
提案手法は,名目設計と比較してパラメータについて完全な知識を持つという期待された利点の最大78%を回復する。
論文 参考訳(メタデータ) (2021-02-03T20:01:25Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。