論文の概要: Improved Model-based Reinforcement Learning with Smooth Kernels
- arxiv url: http://arxiv.org/abs/2605.07218v1
- Date: Fri, 08 May 2026 04:10:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.793844
- Title: Improved Model-based Reinforcement Learning with Smooth Kernels
- Title(参考訳): 滑らかカーネルを用いたモデルベース強化学習の改善
- Authors: Kun Long, Yuqiang Li, Xianyi Wu,
- Abstract要約: 本稿では,有限水平条件下でのオンライン強化学習のためのカーネル平滑化モデルに基づく新しい手法を提案する。
カーネル平滑化フレームワークにベルンシュタイン型探索ボーナスを組み込むことで,その地平線への依存度を改良した後悔境界を実現する。
- 参考スコア(独自算出の注目度): 4.309198038629138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For continuous state-action space scenarios, classical reinforcement learning (RL) theory predominantly focuses on low-rank Markov decision processes (MDPs), which provide sample-efficient guarantees at the expense of restrictive structural assumptions. Kernel smoothing model-based approaches offer a promising alternative paradigm that instead leverages the smoothness of the MDP and employs non-parametric kernel smoothing estimates of transition dynamics. This paper proposes a new kernel-smoothing model-based approach for online reinforcement learning in finite-horizon settings under Lipschitz continuity assumptions on the MDP. By incorporating a Bernstein-style exploration bonus into the kernel smoothing framework, our method achieves a regret bound which improves upon the state-of-the-art regret bound in its dependence on the horizon. The theoretical advancement relies on a delicate analysis of the synergy between Bernstein-style bonuses and kernel smoothing, where a new tight Bernstein-type concentration inequality for martingales may be of independent interest.
- Abstract(参考訳): 連続状態-作用空間のシナリオでは、古典的強化学習(RL)理論は主に低ランクマルコフ決定過程(MDP)に焦点を当て、制限的な構造仮定を犠牲にしてサンプル効率の保証を提供する。
カーネル平滑化モデルに基づくアプローチは、代わりにMDPの平滑性を活用し、遷移力学の非パラメトリックカーネル平滑化推定を用いる、有望な代替パラダイムを提供する。
本稿では,リプシッツ連続性仮定に基づく有限水平条件下でのオンライン強化学習のためのカーネル平滑化モデルに基づく新しい手法を提案する。
カーネル平滑化フレームワークにベルンシュタイン型探索ボーナスを組み込むことで,その地平線への依存度を改良した後悔境界を実現する。
理論の進歩は、ベルンシュタイン型ボーナスと核の平滑化の間の相乗効果の微妙な解析に依存しており、そこでは、マーチンガルに対する新しい厳密なベルンシュタイン型濃度不等式が独立した関心を持つ可能性がある。
関連論文リスト
- A Pontryagin Method of Model-based Reinforcement Learning via Hamiltonian Actor-Critic [16.49862942485022]
Hamiltonian Actor-Critic (HAC) は、明示的な値関数学習を排除したモデルベースのアプローチである。
値近似を避けることにより、HACは収束保証を認めながらモデルエラーに対する感度を低下させる。
限られたデータを持つオフライン設定では、HACは最先端のメソッドと一致または超過し、その強いサンプル効率を強調する。
論文 参考訳(メタデータ) (2026-03-30T20:14:19Z) - ODELoRA: Training Low-Rank Adaptation by Solving Ordinary Differential Equations [54.886931928255564]
低ランク適応(LoRA)は、深層移動学習においてパラメータ効率の高い微調整法として広く採用されている。
常微分方程式(ODE)の形でLoRA因子行列に対する新しい連続時間最適化ダイナミクスを提案する。
ODELoRAは,問題次元の異なるスケールのディープニューラルネットワークのトレーニングに不可欠な特性である,安定した特徴学習を実現する。
論文 参考訳(メタデータ) (2026-02-07T10:19:36Z) - Stochastic Deep Learning: A Probabilistic Framework for Modeling Uncertainty in Structured Temporal Data [0.0]
構造化データと時間的データを含む機械学習アプリケーションにおける不確実性を改善するために、微分方程式(SDE)を深層生成モデルと統合する新しいフレームワークを提案する。
このアプローチはLatent Differential Inference (SLDI)と呼ばれ、変分オートエンコーダの潜時空間にIt SDEを埋め込む。
SDEのドリフトと拡散の項はニューラルネットワークによってパラメータ化され、データ駆動推論と古典的時系列モデルにより不規則なサンプリングと複雑な動的構造を扱うことができる。
論文 参考訳(メタデータ) (2026-01-08T18:53:59Z) - Kernel Learning for Mean-Variance Trading Strategies [0.5461938536945723]
動的パス依存型トレーディング戦略を構築するためのカーネルベースのフレームワークを開発する。
我々は、再生されたカーネルヒルベルト空間の関数としてトレーディング戦略をパラメータ化する。
我々のフレームワークはクローズドフォームのソリューションを保持しており、勾配に基づく最適化に代わる手段を提供する。
論文 参考訳(メタデータ) (2025-07-14T18:17:50Z) - Fast Value Tracking for Deep Reinforcement Learning [7.648784748888187]
強化学習(Reinforcement Learning, RL)は、環境と対話するエージェントを作成することによって、シーケンシャルな意思決定問題に取り組む。
既存のアルゴリズムはしばしばこれらの問題を静的とみなし、期待される報酬を最大化するためにモデルパラメータの点推定に重点を置いている。
我々の研究は、カルマンパラダイムを活用して、Langevinized Kalman TemporalTDと呼ばれる新しい定量化およびサンプリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-03-19T22:18:19Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Posterior Coreset Construction with Kernelized Stein Discrepancy for
Model-Based Reinforcement Learning [78.30395044401321]
我々は、強化学習(MBRL)のための新しいモデルベースアプローチを開発する。
ターゲット遷移モデルの仮定を緩和し、混合モデルの一般的な族に属する。
連続的な制御環境では、壁時計の時間を最大50%削減することができる。
論文 参考訳(メタデータ) (2022-06-02T17:27:49Z) - DROMO: Distributionally Robust Offline Model-based Policy Optimization [0.0]
モデルベース制御によるオフライン強化学習の問題点を考察する。
分散ロバストなオフラインモデルベースポリシー最適化(DROMO)を提案する。
論文 参考訳(メタデータ) (2021-09-15T13:25:14Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - A Kernel-Based Approach to Non-Stationary Reinforcement Learning in
Metric Spaces [53.47210316424326]
KeRNSは、非定常マルコフ決定過程におけるエピソード強化学習のためのアルゴリズムである。
我々は、状態-作用空間の被覆次元と時間とともにMDPの総変動にスケールする後悔境界を証明した。
論文 参考訳(メタデータ) (2020-07-09T21:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。