論文の概要: Impact of Connectivity on Laplacian Representations in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.08558v1
- Date: Mon, 09 Mar 2026 16:20:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.406369
- Title: Impact of Connectivity on Laplacian Representations in Reinforcement Learning
- Title(参考訳): 強化学習における接続性がラプラス表現に及ぼす影響
- Authors: Tommaso Giorgi, Pierriccardo Olivieri, Keyue Jiang, Laura Toni, Matteo Papini,
- Abstract要約: 本研究では, 線形値関数近似の近似誤差について, 学習スペクトル条件下での上限値を示す。
固有ベクトル推定自体によってもたらされる誤差をさらに制限し、エンドツーエンドのエラー分解に繋がる。
我々の結果は、誘導された遷移核の対称性を仮定せずに一般的な(一様でない)ポリシーを保っている。
- 参考スコア(独自算出の注目度): 9.306521175972588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning compact state representations in Markov Decision Processes (MDPs) has proven crucial for addressing the curse of dimensionality in large-scale reinforcement learning (RL) problems. Existing principled approaches leverage structural priors on the MDP by constructing state representations as linear combinations of the state-graph Laplacian eigenvectors. When the transition graph is unknown or the state space is prohibitively large, the graph spectral features can be estimated directly via sample trajectories. In this work, we prove an upper bound on the approximation error of linear value function approximation under the learned spectral features. We show how this error scales with the algebraic connectivity of the state-graph, grounding the approximation quality in the topological structure of the MDP. We further bound the error introduced by the eigenvector estimation itself, leading to an end-to-end error decomposition across the representation learning pipeline. Additionally, our expression of the Laplacian operator for the RL setting, although equivalent to existing ones, prevents some common misunderstandings, of which we show some examples from the literature. Our results hold for general (non-uniform) policies without any assumptions on the symmetry of the induced transition kernel. We validate our theoretical findings with numerical simulations on gridworld environments.
- Abstract(参考訳): マルコフ決定過程(MDP)におけるコンパクトな状態表現の学習は、大規模強化学習(RL)問題における次元性の呪いに対処するために重要であることが証明されている。
既存の原理化されたアプローチは、状態グラフラプラシアン固有ベクトルの線形結合として状態表現を構成することで、MDP上の構造的前提を利用する。
遷移グラフが未知であるか、あるいは状態空間が禁止的に大きい場合、グラフスペクトルの特徴はサンプル軌跡から直接推定することができる。
本研究では, 線形値関数近似の近似誤差の上限を, 学習スペクトル特性の下で証明する。
この誤差が状態グラフの代数的接続とどのようにスケールするかを示し、MDPの位相構造における近似品質を基礎とする。
さらに固有ベクトル推定自体がもたらした誤差を拘束し、表現学習パイプライン全体にわたってエンドツーエンドのエラー分解を行う。
さらに、RL 設定に対するラプラシアン作用素の表現は、既存のものと同値であるが、いくつかの一般的な誤解を防ぎ、文献からいくつかの例を示す。
我々の結果は、誘導された遷移核の対称性を仮定せずに一般的な(一様でない)ポリシーを保っている。
グリッドワールド環境における数値シミュレーションによる理論的知見の検証を行った。
関連論文リスト
- Nonparametric Identification and Inference for Counterfactual Distributions with Confounding [6.997978440999076]
本研究では,非パラメトリック同定と半パラメトリック推定法を提案する。
古典的半パラメトリック理論を現代的な表現学習でブリッジすることで、この研究は複雑な因果系における分布的および反ファクト的推論の頑健な統計基盤を提供する。
論文 参考訳(メタデータ) (2026-02-17T05:00:13Z) - The Vekua Layer: Exact Physical Priors for Implicit Neural Representations via Generalized Analytic Functions [0.0]
Inlicit Neural Representations (INR)は、物理場をパラメータ化するための強力なパラダイムとして登場した。
一般化分析理論に基づく微分スペクトル法を導入する。
本手法は物理インフォームドスペクトルフィルタとして効果的に機能することを示す。
論文 参考訳(メタデータ) (2025-12-11T21:57:21Z) - Asymptotics of Linear Regression with Linearly Dependent Data [28.005935031887038]
非ガウス共変量の設定における線形回帰の計算について検討する。
本稿では,依存性が推定誤差と正規化パラメータの選択にどのように影響するかを示す。
論文 参考訳(メタデータ) (2024-12-04T20:31:47Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Semiparametric Nonlinear Bipartite Graph Representation Learning with
Provable Guarantees [106.91654068632882]
半パラメトリック指数族分布におけるパラメータの統計的推定問題として、両部グラフを考察し、その表現学習問題を定式化する。
提案手法は, 地中真理付近で強い凸性を示すため, 勾配降下法が線形収束率を達成できることを示す。
我々の推定器は指数族内の任意のモデル誤特定に対して頑健であり、広範な実験で検証されている。
論文 参考訳(メタデータ) (2020-03-02T16:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。