論文の概要: Reinforcement Learning with Imperfect Transition Predictions: A Bellman-Jensen Approach
- arxiv url: http://arxiv.org/abs/2510.18687v1
- Date: Tue, 21 Oct 2025 14:47:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.738931
- Title: Reinforcement Learning with Imperfect Transition Predictions: A Bellman-Jensen Approach
- Title(参考訳): 不完全遷移予測を用いた強化学習:ベルマン・ジェンセンアプローチ
- Authors: Chenbei Lu, Zaiwei Chen, Tongxin Li, Chenye Wu, Adam Wierman,
- Abstract要約: 伝統的な強化学習では、エージェントは1段階の遷移モデルでマルコフ決定プロセス(MDP)に基づいて決定を行う。
エネルギー管理や株式投資のような現実世界の多くのアプリケーションでは、エージェントは将来の状態の多段階予測にアクセスできる。
本稿では,オフラインベイズ値学習を軽量なオンライン適応からリアルタイム予測へ分離する2段階モデルベースRLアルゴリズムBOLAを紹介する。
- 参考スコア(独自算出の注目度): 24.85612231267623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional reinforcement learning (RL) assumes the agents make decisions based on Markov decision processes (MDPs) with one-step transition models. In many real-world applications, such as energy management and stock investment, agents can access multi-step predictions of future states, which provide additional advantages for decision making. However, multi-step predictions are inherently high-dimensional: naively embedding these predictions into an MDP leads to an exponential blow-up in state space and the curse of dimensionality. Moreover, existing RL theory provides few tools to analyze prediction-augmented MDPs, as it typically works on one-step transition kernels and cannot accommodate multi-step predictions with errors or partial action-coverage. We address these challenges with three key innovations: First, we propose the \emph{Bayesian value function} to characterize the optimal prediction-aware policy tractably. Second, we develop a novel \emph{Bellman-Jensen Gap} analysis on the Bayesian value function, which enables characterizing the value of imperfect predictions. Third, we introduce BOLA (Bayesian Offline Learning with Online Adaptation), a two-stage model-based RL algorithm that separates offline Bayesian value learning from lightweight online adaptation to real-time predictions. We prove that BOLA remains sample-efficient even under imperfect predictions. We validate our theory and algorithm on synthetic MDPs and a real-world wind energy storage control problem.
- Abstract(参考訳): 伝統的な強化学習(RL)は、エージェントが1段階の遷移モデルでマルコフ決定プロセス(MDP)に基づいて決定を行うと仮定する。
エネルギー管理や株式投資のような現実世界の多くのアプリケーションでは、エージェントは将来の状態の多段階予測にアクセスでき、意思決定にさらなる利点をもたらす。
しかし、多段階予測は本質的に高次元であり、これらの予測をMDPに内在的に埋め込むことは、状態空間の指数的な爆発と次元の呪いにつながる。
さらに、既存のRL理論は、通常1ステップの遷移カーネルで動作し、エラーや部分的なアクションカバレッジを伴うマルチステップの予測に対応できないため、予測強化されたMDPを分析するためのツールをほとんど提供しない。
まず、最適な予測対応ポリシーを魅力的に特徴付けるために、emph{Bayesian value function}を提案する。
第2に,不完全な予測値のキャラクタリゼーションが可能なベイズ値関数の新規なemph{Bellman-Jensen Gap} 解析を開発した。
第三にBOLA(Bayesian Offline Learning with Online Adaptation)は、オフラインベイズ価値学習を軽量なオンライン適応からリアルタイムな予測へと分離する2段階モデルベースのRLアルゴリズムである。
BOLAは不完全な予測の下でもサンプリング効率が保たれていることを証明した。
我々は,合成MDPと実世界の風力エネルギー貯蔵制御問題に関する理論とアルゴリズムを検証した。
関連論文リスト
- TD-JEPA: Latent-predictive Representations for Zero-Shot Reinforcement Learning [63.73629127832652]
本稿では,TDに基づく潜在予測表現を教師なしRLに活用するTD-JEPAを紹介する。
TD-JEPAは、明示的な状態とタスクエンコーダ、ポリシー条件付きマルチステップ予測器、パラメータ化されたポリシーのセットを潜時空間で直接訓練する。
実証的には、TD-JEPAは13のデータセットにわたる移動、ナビゲーション、操作のタスクにおいて、最先端のベースラインをマッチまたは上回る。
論文 参考訳(メタデータ) (2025-10-01T10:21:18Z) - Next-Token Prediction Should be Ambiguity-Sensitive: A Meta-Learning Perspective [12.655285605773932]
我々は,トランスフォーマーがモデルサイズ全体にわたって高いあいまいさの予測に苦慮していることを示す。
予備的な結果は、キャパシティアロケーションの改善とテストタイムのスケーラブルな推論を通じて、あいまいな文脈でかなりの増加を示す。
論文 参考訳(メタデータ) (2025-06-19T13:05:12Z) - Predictive Control and Regret Analysis of Non-Stationary MDP with Look-ahead Information [11.679770353558041]
本研究では,非定常型MDPにおいて,ルックアヘッド予測を組み込むことで,低い後悔度を実現するアルゴリズムを提案する。
我々の理論的分析は、ある仮定の下では、ルックアヘッドウィンドウが拡大するにつれて、後悔は指数関数的に減少することを示している。
非定常環境におけるアルゴリズムの有効性を確認するため,シミュレーションにより本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-09-13T00:01:58Z) - Movement-Prediction-Adjusted Naive Forecast [6.935130578959931]
MPANF (Motion-Prediction-Adjusted Naive forecast) は, 偏差ベースラインを超えて点予測を改善するために設計されている。
MPANFは、信頼できる動き予測が利用できる場合に有効な第2段階の手法として機能する。
論文 参考訳(メタデータ) (2024-06-20T16:32:18Z) - GVFs in the Real World: Making Predictions Online for Water Treatment [23.651798878534635]
実際の飲料水処理プラントにおける強化学習に基づく予測手法の適用について検討する。
まず、このデータセットを説明し、季節性、非定常性、部分観測可能性といった課題を強調します。
オンラインで学習するTDエージェントに対してオンライン更新を行わずに、純粋にオフラインで訓練されたTDエージェントを比較して、デプロイメントにおける学習の重要性を示す。
論文 参考訳(メタデータ) (2023-12-04T04:49:10Z) - Human Trajectory Forecasting with Explainable Behavioral Uncertainty [63.62824628085961]
人間の軌道予測は人間の行動を理解し予測し、社会ロボットから自動運転車への応用を可能にする。
モデルフリー手法は予測精度が優れているが説明可能性に欠ける一方、モデルベース手法は説明可能性を提供するが、よく予測できない。
BNSP-SFMは,11種類の最先端手法と比較して,予測精度を最大50%向上することを示す。
論文 参考訳(メタデータ) (2023-07-04T16:45:21Z) - Reinforcement Learning with Human Feedback: Learning Dynamic Choices via
Pessimism [91.52263068880484]
人間のフィードバックを用いたオフライン強化学習(RLHF)について検討する。
我々は、人間の選択によって引き起こされる一連の軌道から、人間の根底にある報酬とMDPの最適政策を学習することを目指している。
RLHFは、大きな状態空間だが人間のフィードバックが限られていること、人間の決定の有界な合理性、政治外の分散シフトなど、さまざまな理由から挑戦されている。
論文 参考訳(メタデータ) (2023-05-29T01:18:39Z) - Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models [51.3422222472898]
ニュース見出しを用いて,ChatGPTのような大規模言語モデル(LLM)の株価変動を予測する能力について述べる。
我々は,情報容量制約,過小反応,制限対アビタージュ,LLMを組み込んだ理論モデルを構築した。
論文 参考訳(メタデータ) (2023-04-15T19:22:37Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z) - Online Policy Optimization for Robust MDP [17.995448897675068]
強化学習(Reinforcement Learning, RL)は、ビデオゲームやGoなど多くの合成環境において、人間のパフォーマンスを上回っている。
本研究では、未知の名義システムと対話することで、オンラインロバストなマルコフ決定プロセス(MDP)を検討する。
提案手法は,確率的に効率的であるロバストな楽観的ポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-28T05:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。