論文の概要: First-order Sobolev Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.19165v1
- Date: Mon, 24 Nov 2025 14:28:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.253333
- Title: First-order Sobolev Reinforcement Learning
- Title(参考訳): 1次ソボレフ強化学習
- Authors: Fabian Schramm, Nicolas Perrin-Gilbert, Justin Carpentier,
- Abstract要約: 本稿では,一階のベルマン一貫性を強制する時間差学習の洗練を提案する。
学習された値関数は、ベルマンの目標値だけでなく、状態や行動に関してその微分値と一致するように訓練される。
- 参考スコア(独自算出の注目度): 11.152186104735774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a refinement of temporal-difference learning that enforces first-order Bellman consistency: the learned value function is trained to match not only the Bellman targets in value but also their derivatives with respect to states and actions. By differentiating the Bellman backup through differentiable dynamics, we obtain analytically consistent gradient targets. Incorporating these into the critic objective using a Sobolev-type loss encourages the critic to align with both the value and local geometry of the target function. This first-order TD matching principle can be seamlessly integrated into existing algorithms, such as Q-learning or actor-critic methods (e.g., DDPG, SAC), potentially leading to faster critic convergence and more stable policy gradients without altering their overall structure.
- Abstract(参考訳): 学習された値関数は、ベルマンの目標値だけでなく、状態や行動に関してそれらの微分と一致するように訓練される。
ベルマンバックアップを微分可能動力学で微分することにより、解析的に一貫した勾配目標を得る。
これらをソボレフ型損失を用いた批評家の目的に組み込むことで、批評家は対象関数の値と局所幾何学の両方に合わせることを奨励する。
この一階のTDマッチング原理は、Qラーニングやアクター批判法(例えばDDPG、SAC)のような既存のアルゴリズムにシームレスに統合することができ、全体的な構造を変えることなく、より高速な批判収束とより安定したポリシー勾配をもたらす可能性がある。
関連論文リスト
- Quasi-Newton Compatible Actor-Critic for Deterministic Policies [2.745166507489733]
強化学習における2次決定論的アクター批判的枠組みを提案する。
我々は、真の政策勾配とパフォーマンス・ヘッセンの近似を同時に保存する二次的批判を導入する。
論文 参考訳(メタデータ) (2025-11-12T17:49:02Z) - C$^2$GSPG: Confidence-calibrated Group Sequence Policy Gradient towards Self-aware Reasoning [54.705168477975384]
推論モデル学習のためのグループシーケンスポリシーグラディエント(GSPG)フレームワーク。
C$2$GSPGは、自信過剰を抑えながら推論性能を同時に向上させる。
論文 参考訳(メタデータ) (2025-09-27T05:24:51Z) - Spectral Bellman Method: Unifying Representation and Exploration in RL [54.71169912483302]
この研究は、価値に基づく強化学習のための表現を学習するための新しいフレームワークであるSpectral Bellman Representationを紹介する。
ベルマン力学と特徴共分散を整合させることにより,学習した表現が構造化された探索を可能にすることを示す。
我々のフレームワークは、自然に強力なマルチステップベルマン演算子に拡張され、その影響をさらに拡大します。
論文 参考訳(メタデータ) (2025-07-17T14:50:52Z) - Chunking the Critic: A Transformer-based Soft Actor-Critic with N-Step Returns [26.44033413426475]
ソフトアクターのためのシーケンス条件付き批評家を紹介する--Critic (SAC)
我々の手法は,重要サンプリング(IS)を伴わずに,短い軌道セグメントを条件付け,複数ステップの戻り値を統合することによって,批判そのものを強化する。
その単純さにもかかわらず、私たちのアプローチは標準のSACと強力な非政治ベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-03-05T16:47:36Z) - Meta-Learning Adversarial Bandit Algorithms [55.72892209124227]
我々は,バンディットフィードバックを用いたオンラインメタラーニングについて研究する。
我々は自己協和障壁正規化器を用いてオンラインミラー降下一般化(OMD)をチューニングすることを学ぶ。
論文 参考訳(メタデータ) (2023-07-05T13:52:10Z) - Decision-Aware Actor-Critic with Function Approximation and Theoretical
Guarantees [12.259191000019033]
アクター・クリティック(AC)法は強化学習(RL)に広く用いられている
我々は、俳優と批評家を意思決定で訓練するための共同目標を設計する。
簡単なRL問題に対する意思決定対応型アクター批判フレームワークの利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-24T15:34:21Z) - Bridging the Gap Between Target Networks and Functional Regularization [61.051716530459586]
関数空間における凸正規化器であり、容易に調整できる明示的な関数正規化を提案する。
提案手法の収束を理論的・実験的に解析し,より理論的に根ざした機能正規化アプローチでターゲットネットワークを置き換えることにより,サンプリング効率と性能が向上することが実証された。
論文 参考訳(メタデータ) (2022-10-21T22:27:07Z) - How to Learn a Useful Critic? Model-based Action-Gradient-Estimator
Policy Optimization [10.424426548124696]
本稿では,政策勾配理論に基づくモデルに基づくアクター批判アルゴリズムであるMAGEを提案する。
MAGEは学習されたダイナミクスを通じて逆伝搬し、時間差学習において勾配目標を計算する。
モデルフリーおよびモデルベースベースラインと比較して,アルゴリズムの効率性を示す。
論文 参考訳(メタデータ) (2020-04-29T16:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。