論文の概要: Spectral Decomposition Representation for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2208.09515v1
- Date: Fri, 19 Aug 2022 19:01:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 12:36:23.026092
- Title: Spectral Decomposition Representation for Reinforcement Learning
- Title(参考訳): 強化学習のためのスペクトル分解表現
- Authors: Tongzheng Ren, Tianjun Zhang, Lisa Lee, Joseph E. Gonzalez, Dale
Schuurmans, Bo Dai
- Abstract要約: 本稿では, スペクトル分解表現法(SPEDER)を提案する。この手法は, データ収集ポリシーに急激な依存を生じさせることなく, ダイナミックスから状態-作用の抽象化を抽出する。
理論的解析により、オンライン設定とオフライン設定の両方において提案アルゴリズムのサンプル効率が確立される。
実験により、いくつかのベンチマークで現在の最先端アルゴリズムよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 100.0424588013549
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Representation learning often plays a critical role in reinforcement learning
by managing the curse of dimensionality. A representative class of algorithms
exploits a spectral decomposition of the stochastic transition dynamics to
construct representations that enjoy strong theoretical properties in an
idealized setting. However, current spectral methods suffer from limited
applicability because they are constructed for state-only aggregation and
derived from a policy-dependent transition kernel, without considering the
issue of exploration. To address these issues, we propose an alternative
spectral method, Spectral Decomposition Representation (SPEDER), that extracts
a state-action abstraction from the dynamics without inducing spurious
dependence on the data collection policy, while also balancing the
exploration-versus-exploitation trade-off during learning. A theoretical
analysis establishes the sample efficiency of the proposed algorithm in both
the online and offline settings. In addition, an experimental investigation
demonstrates superior performance over current state-of-the-art algorithms
across several benchmarks.
- Abstract(参考訳): 表現学習は、しばしば次元の呪いを管理することによって強化学習において重要な役割を果たす。
代表的なアルゴリズムクラスは、確率的遷移ダイナミクスのスペクトル分解を利用して、理想化された設定で強い理論的性質を享受する表現を構築する。
しかし、現在のスペクトル法は、状態のみの集約のために構築され、探索の問題を考慮せずにポリシーに依存した遷移カーネルから導出されるため、適用性に制限がある。
そこで,本稿では,データ収集方針へのスパイラル依存を生じさせることなく,ダイナミクスから状態動作抽象化を抽出するスペクトル分解表現(speder)を提案し,学習中の探索・探索・探索トレードオフのバランスをとる。
理論的解析により、オンライン設定とオフライン設定の両方において提案アルゴリズムのサンプル効率が確立される。
さらに、いくつかのベンチマークで現在の最先端アルゴリズムよりも優れた性能を示している。
関連論文リスト
- Nonstationary Sparse Spectral Permanental Process [24.10531062895964]
非定常カーネルのスパーススペクトル表現を利用した新しい手法を提案する。
この手法はカーネルタイプと定常性の制約を緩和し、より柔軟なモデリングを可能にする。
合成と実世界の両方のデータセットに対する実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-04T16:40:56Z) - Distributed Learning with Discretely Observed Functional Data [1.4583059436979549]
本稿では,分散スペクトルアルゴリズムとソボレフカーネルを組み合わせることで,関数線形回帰問題に取り組む。
アルゴリズムの仮説関数空間は、ソボレフカーネルによって生成されるソボレフ空間である。
我々は、ソボレフノルムにおける分散スペクトルアルゴリズムの収束に対する上界と下界のマッチングを導出する。
論文 参考訳(メタデータ) (2024-10-03T10:49:34Z) - Learned Regularization for Inverse Problems: Insights from a Spectral Model [1.4963011898406866]
この章は、逆問題に対する最先端の学習アプローチに関する理論的に確立された調査を提供する。
正規化法とそれらの収束を、基礎となるデータ分布の観点から拡張した定義を与える。
論文 参考訳(メタデータ) (2023-12-15T14:50:14Z) - Learning Neural Eigenfunctions for Unsupervised Semantic Segmentation [12.91586050451152]
スペクトルクラスタリング(英: Spectral clustering)は、異なるクラスタを構築するために画素のスペクトル埋め込みを計算する理論上の解である。
現在のアプローチは、まだスペクトル分解の非効率性と、試験データに適用する際の柔軟性に悩まされている。
この研究は、スペクトルクラスタリングをニューラルネットワークに基づく固有関数を用いてスペクトル埋め込みを生成するパラメトリックアプローチとしてキャストすることで、これらの問題に対処する。
実際には、神経固有関数は軽量であり、事前訓練されたモデルの特徴を入力とし、トレーニング効率を改善し、より密集した予測のための事前訓練されたモデルの可能性を解き放つ。
論文 参考訳(メタデータ) (2023-04-06T03:14:15Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Deep Equilibrium Assisted Block Sparse Coding of Inter-dependent
Signals: Application to Hyperspectral Imaging [71.57324258813675]
相互依存信号のデータセットは、列が強い依存を示す行列として定義される。
ニューラルネットワークは、事前に構造として機能し、基礎となる信号相互依存性を明らかにするために使用される。
ディープ・アンローリングとディープ・平衡に基づくアルゴリズムが開発され、高度に解釈可能で簡潔なディープ・ラーニング・ベース・アーキテクチャを形成する。
論文 参考訳(メタデータ) (2022-03-29T21:00:39Z) - A Free Lunch from the Noise: Provable and Practical Exploration for
Representation Learning [55.048010996144036]
ある雑音仮定の下では、対応するマルコフ遷移作用素の線型スペクトル特性を自由な閉形式で得られることを示す。
本稿では,スペクトルダイナミクス埋め込み(SPEDE)を提案する。これはトレードオフを破り,雑音の構造を利用して表現学習のための楽観的な探索を完遂する。
論文 参考訳(メタデータ) (2021-11-22T19:24:57Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。