論文の概要: Spectral Representation-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.15036v1
- Date: Wed, 17 Dec 2025 02:54:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.834374
- Title: Spectral Representation-based Reinforcement Learning
- Title(参考訳): スペクトル表現に基づく強化学習
- Authors: Chenxiao Gao, Haotian Sun, Na Li, Dale Schuurmans, Bo Dai,
- Abstract要約: 本稿では,強化学習の難しさに対する解決策として,スペクトル表現の視点を紹介する。
潜在変数構造を持つ遷移作用素やエネルギーベース構造を持つ遷移作用素に対してスペクトル表現を構築する方法を示す。
また、このスペクトルビューを部分的に観測可能なMDPにも拡張する。
- 参考スコア(独自算出の注目度): 42.78610854620513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real-world applications with large state and action spaces, reinforcement learning (RL) typically employs function approximations to represent core components like the policies, value functions, and dynamics models. Although powerful approximations such as neural networks offer great expressiveness, they often present theoretical ambiguities, suffer from optimization instability and exploration difficulty, and incur substantial computational costs in practice. In this paper, we introduce the perspective of spectral representations as a solution to address these difficulties in RL. Stemming from the spectral decomposition of the transition operator, this framework yields an effective abstraction of the system dynamics for subsequent policy optimization while also providing a clear theoretical characterization. We reveal how to construct spectral representations for transition operators that possess latent variable structures or energy-based structures, which implies different learning methods to extract spectral representations from data. Notably, each of these learning methods realizes an effective RL algorithm under this framework. We also provably extend this spectral view to partially observable MDPs. Finally, we validate these algorithms on over 20 challenging tasks from the DeepMind Control Suite, where they achieve performances comparable or superior to current state-of-the-art model-free and model-based baselines.
- Abstract(参考訳): 大きな状態とアクション空間を持つ現実世界のアプリケーションでは、強化学習(RL)は一般的に、ポリシーや値関数、動的モデルといったコアコンポーネントを表現する関数近似を用いる。
ニューラルネットワークのような強力な近似は非常に表現力があるが、しばしば理論的な曖昧さを示し、最適化の不安定さと探索の難しさに悩まされ、実際にかなりの計算コストがかかる。
本稿では、RLにおけるこれらの困難に対処するための解決策として、スペクトル表現の観点を紹介する。
遷移作用素のスペクトル分解から、この枠組みはその後の政策最適化のためにシステムの力学を効果的に抽象化すると同時に、明確な理論的特徴を与える。
本研究では,潜在変数構造やエネルギーベース構造を持つ遷移作用素のスペクトル表現を構築する方法を明らかにし,データからスペクトル表現を抽出するための異なる学習方法を提案する。
特に、これらの学習手法は、このフレームワークの下で有効なRLアルゴリズムを実現する。
また、このスペクトルビューを部分的に観測可能なMDPにも拡張する。
最後に、これらのアルゴリズムをDeepMind Control Suiteの20以上の課題タスクで検証し、現在の最先端のモデルフリーとモデルベースベースラインに匹敵するパフォーマンスを達成する。
関連論文リスト
- Deep Unfolding: Recent Developments, Theory, and Design Guidelines [99.63555420898554]
この記事では、最適化アルゴリズムを構造化されたトレーニング可能なMLアーキテクチャに変換するフレームワークであるDeep Unfoldingのチュートリアルスタイルの概要を提供する。
推論と学習のための最適化の基礎を概観し、深層展開のための4つの代表的な設計パラダイムを導入し、その反復的な性質から生じる特有なトレーニングスキームについて議論する。
論文 参考訳(メタデータ) (2025-12-03T13:16:35Z) - Fourier Neural Operators Explained: A Practical Perspective [75.12291469255794]
フーリエ・ニューラル・オペレータ(FNO)は、そのエレガントなスペクトル定式化により最も影響力があり広く採用されている。
本ガイドは,FNOを多種多様な科学・工学分野に効果的に適用するための,明確かつ信頼性の高い枠組みを確立することを目的とする。
論文 参考訳(メタデータ) (2025-12-01T08:56:21Z) - Learning dynamically inspired invariant subspaces for Koopman and transfer operator approximation [0.0]
我々は一般作用素と表現学習を用いて転移とクープマン作用素を近似する。
具体的には、システムに動的に適合する機械学習正則基底関数について述べる。
本稿では,推定演算子からスペクトル特性を抽出した例を紹介する。
論文 参考訳(メタデータ) (2025-05-08T09:32:39Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Spectral Decomposition Representation for Reinforcement Learning [100.0424588013549]
本稿では, スペクトル分解表現法(SPEDER)を提案する。この手法は, データ収集ポリシーに急激な依存を生じさせることなく, ダイナミックスから状態-作用の抽象化を抽出する。
理論的解析により、オンライン設定とオフライン設定の両方において提案アルゴリズムのサンプル効率が確立される。
実験により、いくつかのベンチマークで現在の最先端アルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-08-19T19:01:30Z) - A Free Lunch from the Noise: Provable and Practical Exploration for
Representation Learning [55.048010996144036]
ある雑音仮定の下では、対応するマルコフ遷移作用素の線型スペクトル特性を自由な閉形式で得られることを示す。
本稿では,スペクトルダイナミクス埋め込み(SPEDE)を提案する。これはトレードオフを破り,雑音の構造を利用して表現学習のための楽観的な探索を完遂する。
論文 参考訳(メタデータ) (2021-11-22T19:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。