論文の概要: Analysis of Control Bellman Residual Minimization for Markov Decision Problem
- arxiv url: http://arxiv.org/abs/2601.18840v1
- Date: Mon, 26 Jan 2026 10:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.004888
- Title: Analysis of Control Bellman Residual Minimization for Markov Decision Problem
- Title(参考訳): マルコフ決定問題に対するベルマン残差最小化法の解析
- Authors: Donghwan Lee, Hyukjun Yang,
- Abstract要約: ベルマン残差最小化は、正方形ベルマン残差目的関数を最小化するために用いられる。
政策最適化のためのベルマン残差最小化制御の基礎的結果を確立する。
- 参考スコア(独自算出の注目度): 6.622208195193136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Markov decision problems are most commonly solved via dynamic programming. Another approach is Bellman residual minimization, which directly minimizes the squared Bellman residual objective function. However, compared to dynamic programming, this approach has received relatively less attention, mainly because it is often less efficient in practice and can be more difficult to extend to model-free settings such as reinforcement learning. Nonetheless, Bellman residual minimization has several advantages that make it worth investigating, such as more stable convergence with function approximation for value functions. While Bellman residual methods for policy evaluation have been widely studied, methods for policy optimization (control tasks) have been scarcely explored. In this paper, we establish foundational results for the control Bellman residual minimization for policy optimization.
- Abstract(参考訳): マルコフ決定問題は動的プログラミングによって最もよく解決される。
もうひとつのアプローチはベルマン残差最小化であり、これは正方形ベルマン残差目的関数を直接最小化するものである。
しかし、動的プログラミングと比較して、このアプローチは実際は効率が悪く、強化学習のようなモデルなしの設定に拡張することがより困難になるため、比較的注意が払われていない。
それでも、ベルマン残差最小化は、値関数の関数近似とのより安定した収束など、調査する価値があるいくつかの利点がある。
政策評価のためのベルマン残差法は広く研究されているが、政策最適化(制御タスク)の方法はほとんど研究されていない。
本稿では,政策最適化のためのベルマン残差最小化制御の基礎的結果を確立する。
関連論文リスト
- Stability and Generalization for Bellman Residuals [8.250374560598493]
ベルマン残留最小化(BRM)はオフライン強化学習の魅力的な治療法として浮上している。
本稿では,SGDAが近傍のデータセット上で実行され,O(1/n)平均引数-安定性境界が得られる,単一のリアプノフポテンシャルを紹介する。
その結果、標準のニューラルネットワークパラメータ化とミニバッチSGDが得られた。
論文 参考訳(メタデータ) (2025-08-26T07:15:36Z) - Gradual Transition from Bellman Optimality Operator to Bellman Operator in Online Reinforcement Learning [47.57615889991631]
連続行動空間の場合、アクター批判法はオンライン強化学習(RL)において広く用いられている。
本研究では,ベルマン最適度演算子をアクター批判フレームワークに組み込むことの有効性を検討した。
論文 参考訳(メタデータ) (2025-06-06T10:46:20Z) - Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。
本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。
我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文 参考訳(メタデータ) (2025-05-21T09:41:53Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - A Generalized Projected Bellman Error for Off-policy Value Estimation in Reinforcement Learning [25.39784277231972]
線形 MSPBE を非線形設定に拡張する一般化 MSPBE を導入する。
我々は、一般化された目的を最小化するために、使いやすいが、音のアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-04-28T15:50:34Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。