論文の概要: Gradual Transition from Bellman Optimality Operator to Bellman Operator in Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.05968v1
- Date: Fri, 06 Jun 2025 10:46:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.434067
- Title: Gradual Transition from Bellman Optimality Operator to Bellman Operator in Online Reinforcement Learning
- Title(参考訳): オンライン強化学習におけるベルマン最適演算子からベルマン演算子への経時変化
- Authors: Motoki Omura, Kazuki Ota, Takayuki Osa, Yusuke Mukuta, Tatsuya Harada,
- Abstract要約: 連続行動空間の場合、アクター批判法はオンライン強化学習(RL)において広く用いられている。
本研究では,ベルマン最適度演算子をアクター批判フレームワークに組み込むことの有効性を検討した。
- 参考スコア(独自算出の注目度): 47.57615889991631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For continuous action spaces, actor-critic methods are widely used in online reinforcement learning (RL). However, unlike RL algorithms for discrete actions, which generally model the optimal value function using the Bellman optimality operator, RL algorithms for continuous actions typically model Q-values for the current policy using the Bellman operator. These algorithms for continuous actions rely exclusively on policy updates for improvement, which often results in low sample efficiency. This study examines the effectiveness of incorporating the Bellman optimality operator into actor-critic frameworks. Experiments in a simple environment show that modeling optimal values accelerates learning but leads to overestimation bias. To address this, we propose an annealing approach that gradually transitions from the Bellman optimality operator to the Bellman operator, thereby accelerating learning while mitigating bias. Our method, combined with TD3 and SAC, significantly outperforms existing approaches across various locomotion and manipulation tasks, demonstrating improved performance and robustness to hyperparameters related to optimality.
- Abstract(参考訳): 連続行動空間では、アクター批判法がオンライン強化学習(RL)で広く使われている。
しかし、ベルマン最適性演算子を用いた最適値関数をモデル化する離散作用に対するRLアルゴリズムとは異なり、連続作用に対するRLアルゴリズムは、ベルマン演算子を用いた現在のポリシーに対するQ値をモデル化するのが一般的である。
継続的アクションのためのこれらのアルゴリズムは、改善のためのポリシー更新にのみ依存しており、しばしばサンプル効率が低下する。
本研究では,ベルマン最適度演算子をアクター批判フレームワークに組み込むことの有効性を検討した。
単純な環境での実験では、最適値のモデリングは学習を加速するが、過大評価バイアスを引き起こす。
そこで本研究では,ベルマン最適性演算子からベルマン演算子へ徐々に遷移し,バイアスを緩和しながら学習を加速するアニーリング手法を提案する。
提案手法は,TD3とSACを組み合わせることで,様々な移動・操作タスクにおける既存手法よりも優れ,最適性に関連するハイパーパラメータの性能向上とロバスト性の向上を実証する。
関連論文リスト
- Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。
本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。
我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文 参考訳(メタデータ) (2025-05-21T09:41:53Z) - Linear Bellman Completeness Suffices for Efficient Online Reinforcement Learning with Few Actions [29.69428894587431]
ベルマンが成り立つと仮定し、これらの回帰問題が十分に特定されていることを保証している。
数作用が定数であるとき、線形ベルマンの下でRLの最初の特別なアルゴリズムを与える。
論文 参考訳(メタデータ) (2024-06-17T15:24:49Z) - Parameterized Projected Bellman Operator [64.129598593852]
近似値反復(英: Approximate value iteration, AVI)は、強化学習(RL)のためのアルゴリズムの一群である。
本稿ではベルマン作用素の近似版を学習する新しい代替手法を提案する。
逐次決定問題に対するPBO学習のための最適化問題を定式化する。
論文 参考訳(メタデータ) (2023-12-20T09:33:16Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。