論文の概要: Automatic feature identification in least-squares policy iteration using the Koopman operator framework
- arxiv url: http://arxiv.org/abs/2603.26464v1
- Date: Fri, 27 Mar 2026 14:31:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.540749
- Title: Automatic feature identification in least-squares policy iteration using the Koopman operator framework
- Title(参考訳): Koopman演算子フレームワークを用いた最小二乗ポリシー繰り返しにおける特徴の自動識別
- Authors: Christian Mugisho Zagabe, Sebastian Petiz,
- Abstract要約: 強化学習(RL)におけるKoopman Autoencoder-based least-squares Policy iteration (KAE-LSPI)アルゴリズムを提案する。
KAE-LSPIアルゴリズムは、拡張動的モード分解(EDMD)の観点から、いわゆる最小二乗不動点近似法を再構成したものである。
我々は,KAE-LSPIアルゴリズムと,従来の最小二乗ポリシー反復 (LSPI) とカーネルベースの最小二乗ポリシー反復 (KLSPI) を比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we present a Koopman autoencoder-based least-squares policy iteration (KAE-LSPI) algorithm in reinforcement learning (RL). The KAE-LSPI algorithm is based on reformulating the so-called least-squares fixed-point approximation method in terms of extended dynamic mode decomposition (EDMD), thereby enabling automatic feature learning via the Koopman autoencoder (KAE) framework. The approach is motivated by the lack of a systematic choice of features or kernels in linear RL techniques. We compare the KAE-LSPI algorithm with two previous works, the classical least-squares policy iteration (LSPI) and the kernel-based least-squares policy iteration (KLSPI), using stochastic chain walk and inverted pendulum control problems as examples. Unlike previous works, no features or kernels need to be fixed a priori in our approach. Empirical results show the number of features learned by the KAE technique remains reasonable compared to those fixed in the classical LSPI algorithm. The convergence to an optimal or a near-optimal policy is also comparable to the other two methods.
- Abstract(参考訳): 本稿では、強化学習(RL)におけるKoopman Autoencoder-based least-squares Policy iteration (KAE-LSPI)アルゴリズムを提案する。
KAE-LSPIアルゴリズムは、拡張動的モード分解(EDMD)の観点から、いわゆる最小二乗固定点近似法を再構成し、クープマンオートエンコーダ(KAE)フレームワークによる自動特徴学習を可能にする。
このアプローチの動機は、線形RL手法における機能やカーネルの体系的な選択が欠如していることにある。
我々は、KAE-LSPIアルゴリズムと、古典的最小二乗ポリシー反復(LSPI)とカーネルに基づく最小二乗ポリシー反復(KLSPI)の2つの先行研究を比較し、確率連鎖ウォークと逆振り子制御問題を例として用いた。
これまでの作業とは異なり、私たちのアプローチでは、プリオリを固定する機能やカーネルは必要ありません。
実験の結果,従来のLSPIアルゴリズムと比較すると,KAE法で学習した特徴の数は妥当であることがわかった。
最適あるいは準最適ポリシーへの収束は、他の2つの方法に匹敵する。
関連論文リスト
- EVAL: EigenVector-based Average-reward Learning [4.8748194765816955]
ニューラルネットワークによる関数近似に基づくアプローチを開発する。
エントロピー正則化を使わずに, 平均回帰RL問題を解く方法を示す。
論文 参考訳(メタデータ) (2025-01-15T19:00:45Z) - Regularized Q-Learning with Linear Function Approximation [2.765106384328772]
線形汎関数近似を用いた正規化Q-ラーニングの2段階最適化について検討する。
特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。
論文 参考訳(メタデータ) (2024-01-26T20:45:40Z) - From Optimization to Control: Quasi Policy Iteration [2.0769172070951067]
準政治反復(QPI)と呼ばれる新しい制御アルゴリズムを提案する。
QPIは、MDP特有の2つの線形構造制約を利用し、遷移確率カーネルの事前情報を組み込むことができる。
論文 参考訳(メタデータ) (2023-11-18T21:00:14Z) - Improving Sample Efficiency of Model-Free Algorithms for Zero-Sum Markov Games [66.2085181793014]
モデルフリーのステージベースQ-ラーニングアルゴリズムはモデルベースアルゴリズムと同じ$H$依存の最適性を享受できることを示す。
本アルゴリズムは,楽観的値関数と悲観的値関数のペアとして参照値関数を更新するキーとなる新しい設計を特徴とする。
論文 参考訳(メタデータ) (2023-08-17T08:34:58Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Uniform-PAC Bounds for Reinforcement Learning with Linear Function
Approximation [92.3161051419884]
線形関数近似を用いた強化学習について検討する。
既存のアルゴリズムは、高い確率的後悔と/またはおよそ正当性(PAC)サンプルの複雑さの保証しか持たない。
我々はFLUTEと呼ばれる新しいアルゴリズムを提案し、高い確率で最適ポリシーへの均一PAC収束を享受する。
論文 参考訳(メタデータ) (2021-06-22T08:48:56Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。