論文の概要: online and lightweight kernel-based approximated policy iteration for
dynamic p-norm linear adaptive filtering
- arxiv url: http://arxiv.org/abs/2210.11755v1
- Date: Fri, 21 Oct 2022 06:29:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 16:03:14.924890
- Title: online and lightweight kernel-based approximated policy iteration for
dynamic p-norm linear adaptive filtering
- Title(参考訳): 動的p-ノルム線形適応フィルタリングのためのオンラインおよび軽量カーネルベース近似ポリシーイテレーション
- Authors: Yuki Akiyama, Minh Vu, Konstantinos Slavakis
- Abstract要約: 本稿では, 線形適応フィルタリングにおいて, 最適p-ノルムを動的(オンライン)に選択する問題の解を提案する。
提案するフレームワークはカーネルベース強化学習(KBRL)に基づいている。
- 参考スコア(独自算出の注目度): 8.319127681936815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a solution to the problem of selecting dynamically
(online) the ``optimal'' p-norm to combat outliers in linear adaptive filtering
without any knowledge on the probability density function of the outliers. The
proposed online and data-driven framework is built on kernel-based
reinforcement learning (KBRL). To this end, novel Bellman mappings on
reproducing kernel Hilbert spaces (RKHSs) are introduced. These mappings do not
require any knowledge on transition probabilities of Markov decision processes,
and are nonexpansive with respect to the underlying Hilbertian norm. The
fixed-point sets of the proposed Bellman mappings are utilized to build an
approximate policy-iteration (API) framework for the problem at hand. To
address the ``curse of dimensionality'' in RKHSs, random Fourier features are
utilized to bound the computational complexity of the API. Numerical tests on
synthetic data for several outlier scenarios demonstrate the superior
performance of the proposed API framework over several non-RL and KBRL schemes.
- Abstract(参考訳): 本稿では, 線形適応フィルタリングにおいて, 確率密度関数の知識を必要とせず, 最適p-ノルムを動的(オンライン)に選択する問題に対する解を提案する。
提案するオンラインおよびデータ駆動フレームワークは、カーネルベースの強化学習(KBRL)に基づいている。
この目的のために、再生カーネルヒルベルト空間(RKHS)に関するベルマン写像が導入された。
これらの写像はマルコフ決定過程の遷移確率に関する知識を一切必要とせず、根底にあるヒルベルトノルムに関して拡張性がない。
提案したベルマン写像の固定点集合を用いて,その問題に対する近似ポリシイテレーション(API)フレームワークを構築する。
RKHSの ‘curse of dimensionality' に対処するために、ランダムなフーリエ機能を使用して、APIの計算複雑性を束縛する。
いくつかの外部シナリオに対する合成データに関する数値実験は、提案したAPIフレームワークが複数の非RLおよびKBRLスキームよりも優れた性能を示す。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Nonparametric Bellman Mappings for Reinforcement Learning: Application to Robust Adaptive Filtering [3.730504020733928]
本稿では、強化学習(RL)のための再生カーネルヒルベルト空間(RKHS)における新しい非パラメトリックベルマン写像を設計する。
提案したマッピングは、RKHSのリッチな近似特性の恩恵を受け、非パラメトリックな性質のためデータの統計に仮定を適用せず、トレーニングデータなしで運用することができる。
応用として, 適応フィルタリングにおける外れ値の対応問題に対する新しい解決策を提供するために, 提案した写像を用いる。
論文 参考訳(メタデータ) (2024-03-29T07:15:30Z) - An Alternate View on Optimal Filtering in an RKHS [0.0]
Adaptive Filtering (KAF) は、再生カーネル空間内の関数を探索する数学的に原理化された手法である。
彼らはトレーニングサンプルの数とモデルサイズの間の線形関係に悩まされており、今日のデータ飽和世界で一般的な非常に大きなデータセットでの使用を妨げている。
モデルサイズの線形成長を必ずしも持たないRKHSにおける解への経路を提供することができる最適フィルタリングの新たな視点について述べる。
論文 参考訳(メタデータ) (2023-12-19T16:43:17Z) - Proximal Bellman mappings for reinforcement learning and their
application to robust adaptive filtering [4.140907550856865]
本稿ではベルマン写像の新しいクラスを紹介する。
写像は、カーネルヒルベルト空間の再現で定義される。
提案した写像のクラスに近似的なポリシイテレーションスキームを構築した。
論文 参考訳(メタデータ) (2023-09-14T09:20:21Z) - Dynamic selection of p-norm in linear adaptive filtering via online
kernel-based reinforcement learning [8.319127681936815]
本研究は, 線形適応フィルタリングにおいて, 最適p-ノルムが外れ値と競合する問題に対して, 動的に選択する問題に対処する。
オンラインおよびデータ駆動型フレームワークはカーネルベース強化学習(KBRL)によって設計される
論文 参考訳(メタデータ) (2022-10-20T14:49:39Z) - Youla-REN: Learning Nonlinear Feedback Policies with Robust Stability
Guarantees [5.71097144710995]
本稿では,最近開発されたニューラルネットワークアーキテクチャ上に構築された不確実性システムに対する非線形制御器のパラメータ化について述べる。
提案したフレームワークは、安定性の保証、すなわち、検索空間におけるすべてのポリシーが、契約(グローバルに指数関数的に安定した)クローズドループシステムをもたらすことを保証する。
論文 参考訳(メタデータ) (2021-12-02T13:52:37Z) - Solving Multistage Stochastic Linear Programming via Regularized Linear
Decision Rules: An Application to Hydrothermal Dispatch Planning [77.34726150561087]
AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。
実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。
LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
論文 参考訳(メタデータ) (2021-10-07T02:36:14Z) - Sample-Efficient Reinforcement Learning Is Feasible for Linearly
Realizable MDPs with Limited Revisiting [60.98700344526674]
線形関数表現のような低複雑度モデルがサンプル効率のよい強化学習を可能にする上で重要な役割を果たしている。
本稿では,オンライン/探索的な方法でサンプルを描画するが,制御不能な方法で以前の状態をバックトラックし,再訪することができる新しいサンプリングプロトコルについて検討する。
この設定に合わせたアルゴリズムを開発し、特徴次元、地平線、逆の準最適ギャップと実際にスケールするサンプル複雑性を実現するが、状態/作用空間のサイズではない。
論文 参考訳(メタデータ) (2021-05-17T17:22:07Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Identification of Probability weighted ARX models with arbitrary domains [75.91002178647165]
PieceWise Affineモデルは、ハイブリッドシステムの他のクラスに対する普遍近似、局所線型性、同値性を保証する。
本研究では,任意の領域を持つ固有入力モデル(NPWARX)を用いたPieceWise Auto Regressiveの同定に着目する。
このアーキテクチャは、機械学習の分野で開発されたMixture of Expertの概念に従って考案された。
論文 参考訳(メタデータ) (2020-09-29T12:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。