論文の概要: Dynamic selection of p-norm in linear adaptive filtering via online
kernel-based reinforcement learning
- arxiv url: http://arxiv.org/abs/2210.11317v2
- Date: Fri, 21 Oct 2022 01:19:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 11:03:28.045554
- Title: Dynamic selection of p-norm in linear adaptive filtering via online
kernel-based reinforcement learning
- Title(参考訳): オンラインカーネルベース強化学習による線形適応フィルタリングにおけるpノルムの動的選択
- Authors: Minh Vu, Yuki Akiyama, Konstantinos Slavakis
- Abstract要約: 本研究は, 線形適応フィルタリングにおいて, 最適p-ノルムが外れ値と競合する問題に対して, 動的に選択する問題に対処する。
オンラインおよびデータ駆動型フレームワークはカーネルベース強化学習(KBRL)によって設計される
- 参考スコア(独自算出の注目度): 8.319127681936815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study addresses the problem of selecting dynamically, at each time
instance, the ``optimal'' p-norm to combat outliers in linear adaptive
filtering without any knowledge on the potentially time-varying probability
distribution function of the outliers. To this end, an online and data-driven
framework is designed via kernel-based reinforcement learning (KBRL). Novel
Bellman mappings on reproducing kernel Hilbert spaces (RKHSs) are introduced
that need no knowledge on transition probabilities of Markov decision
processes, and are nonexpansive with respect to the underlying Hilbertian norm.
An approximate policy-iteration framework is finally offered via the
introduction of a finite-dimensional affine superset of the fixed-point set of
the proposed Bellman mappings. The well-known ``curse of dimensionality'' in
RKHSs is addressed by building a basis of vectors via an approximate linear
dependency criterion. Numerical tests on synthetic data demonstrate that the
proposed framework selects always the ``optimal'' p-norm for the outlier
scenario at hand, outperforming at the same time several non-RL and KBRL
schemes.
- Abstract(参考訳): 本研究は, 線形適応フィルタリングにおいて, 時変確率分布関数の知識を必要とせずに, 線形適応フィルタにおいて, 最適p-ノルムが外乱に対処する際の動的選択の問題に対処する。
この目的のために、オンラインおよびデータ駆動フレームワークは、カーネルベースの強化学習(KBRL)によって設計されている。
再生カーネルヒルベルト空間 (RKHSs) 上のベルマン写像はマルコフ決定過程の遷移確率に関する知識を必要とせず、根底にあるヒルベルトノルムに関して拡張性がない。
ベルマン写像の固定点集合の有限次元アフィンスーパーセットの導入により、近似的なポリシーイテレーションフレームワークが最終的に提供される。
RKHSsのよく知られた '`curse of dimensionality'' は、近似線形依存基準を用いてベクトルの基礎を構築することで解決される。
合成データの数値実験により,提案手法は,不整合シナリオに対して常に ''optimal'' p-norm を選択し,同時にいくつかの非RLおよびKBRLスキームよりも優れた性能を示した。
関連論文リスト
- Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Nonparametric Bellman Mappings for Reinforcement Learning: Application to Robust Adaptive Filtering [3.730504020733928]
本稿では、強化学習(RL)のための再生カーネルヒルベルト空間(RKHS)における新しい非パラメトリックベルマン写像を設計する。
提案したマッピングは、RKHSのリッチな近似特性の恩恵を受け、非パラメトリックな性質のためデータの統計に仮定を適用せず、トレーニングデータなしで運用することができる。
応用として, 適応フィルタリングにおける外れ値の対応問題に対する新しい解決策を提供するために, 提案した写像を用いる。
論文 参考訳(メタデータ) (2024-03-29T07:15:30Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Proximal Bellman mappings for reinforcement learning and their
application to robust adaptive filtering [4.140907550856865]
本稿ではベルマン写像の新しいクラスを紹介する。
写像は、カーネルヒルベルト空間の再現で定義される。
提案した写像のクラスに近似的なポリシイテレーションスキームを構築した。
論文 参考訳(メタデータ) (2023-09-14T09:20:21Z) - Kalman Filter for Online Classification of Non-Stationary Data [101.26838049872651]
オンライン連続学習(OCL)では、学習システムはデータのストリームを受け取り、予測とトレーニングの手順を順次実行する。
本稿では,線形予測量に対するニューラル表現と状態空間モデルを用いた確率ベイズオンライン学習モデルを提案する。
多クラス分類の実験では、モデルの予測能力と非定常性を捉える柔軟性を示す。
論文 参考訳(メタデータ) (2023-06-14T11:41:42Z) - Linear Convergence of Reshuffling Kaczmarz Methods With Sparse
Constraints [7.936519714074615]
カッツマルツ行列(英語版)(KZ)とその変種は、部分線型方程式系を解く際の単純さと効率性のために広く研究されている。
KHT に対する最初の理論的収束保証は、空間的制約のある系の解に線形に収束することを示すことである。
論文 参考訳(メタデータ) (2023-04-20T07:14:24Z) - online and lightweight kernel-based approximated policy iteration for
dynamic p-norm linear adaptive filtering [8.319127681936815]
本稿では, 線形適応フィルタリングにおいて, 最適p-ノルムを動的(オンライン)に選択する問題の解を提案する。
提案するフレームワークはカーネルベース強化学習(KBRL)に基づいている。
論文 参考訳(メタデータ) (2022-10-21T06:29:01Z) - Youla-REN: Learning Nonlinear Feedback Policies with Robust Stability
Guarantees [5.71097144710995]
本稿では,最近開発されたニューラルネットワークアーキテクチャ上に構築された不確実性システムに対する非線形制御器のパラメータ化について述べる。
提案したフレームワークは、安定性の保証、すなわち、検索空間におけるすべてのポリシーが、契約(グローバルに指数関数的に安定した)クローズドループシステムをもたらすことを保証する。
論文 参考訳(メタデータ) (2021-12-02T13:52:37Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - On the Stability of Nonlinear Receding Horizon Control: A Geometric
Perspective [72.7951562665449]
産業における非線形回帰制御(RHC)戦略の広範な採用には30年以上がかかる。
本稿では,グローバル・ジオメトリの役割を理解するための第一歩として,グローバル・ベース・コントロールの役割について述べる。
論文 参考訳(メタデータ) (2021-03-27T22:59:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。