論文の概要: Learning to Spend: Model Predictive Control for Budgeting under Non-Stationary Returns
- arxiv url: http://arxiv.org/abs/2604.27186v1
- Date: Wed, 29 Apr 2026 20:39:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.80267
- Title: Learning to Spend: Model Predictive Control for Budgeting under Non-Stationary Returns
- Title(参考訳): 非定常リターン下での予算化のためのモデル予測制御
- Authors: Nilavra Pathak, Smriti Shyamal, Prasant Mhasker, Christopher Swartz,
- Abstract要約: 閉ループ経済制御問題として,有限ホライゾンの予算配分について検討する。
我々は, 回帰水平モデル予測制御(MPC)を, 反応性予算政策と比較して評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study finite-horizon budget allocation as a closed-loop economic control problem and evaluate receding-horizon Model Predictive Control (MPC) relative to reactive budgeting policies. Budgets are allocated periodically under execution noise and operational constraints, while return efficiency may evolve over time. Using a controlled simulation framework motivated by digital marketing, we compare reactive pacing to MPC across environments with increasing degrees of non-stationarity. Our results show that non-stationarity alone does not justify predictive control. When return dynamics are stationary or evolve through unpredictable stochastic drift, MPC offers no systematic advantage over reactive baselines. By contrast, when return efficiency exhibits predictable structure over the planning horizon, that is captured through an underlying model, MPC consistently outperforms reactive budgeting by exploiting intertemporal trade-offs.
- Abstract(参考訳): 本研究では, 閉ループ型経済制御問題として, 有限水平モデル予測制御(MPC)について検討した。
予算は実行ノイズや運用上の制約の下で定期的に配分されるが、リターン効率は時間とともに進化する可能性がある。
ディジタルマーケティングをモチベーションとした制御されたシミュレーションフレームワークを用いて,MPCと環境間の反応性ペーシングを非定常度の増加とともに比較した。
その結果,非定常性だけでは予測制御が正当化されないことがわかった。
リターンダイナミクスが予測不可能な確率的ドリフトを通じて定常的あるいは進化している場合、MPCは反応性ベースラインよりも体系的な優位性を提供しない。
対照的に、リターン効率が基本モデルを通して捉えられる計画地平線上の予測可能な構造を示す場合、MPCは時間的トレードオフを利用して、常に反応性の予算を上回ります。
関連論文リスト
- Optimal sequential decision-making for error propagation mitigation in digital twins [0.0]
我々は,提案した制度が国家として機能し,是正的介入が行動として機能するマルコフ決定プロセス(MDP)を開発した。
次に,この定式化を,ベイズ的フィルタリングを通じて更新された信念を維持することで,制度分類の不完全性を説明する部分観測可能MDP(Partially Observable MDP)に拡張する。
どちらの定式化も動的プログラミングとシミュレーションによって解決される。モデルなし強化学習アルゴリズムであるQ-ラーニングとREINFORCEをベンチマークし、明確なモデル知識なしで効果的なポリシーを学習できるかを評価する。
論文 参考訳(メタデータ) (2026-04-24T02:36:23Z) - $V_{0.5}$: Generalist Value Model as a Prior for Sparse RL Rollouts [81.48669089692189]
一般値モデル(例えば$V_0.5$)は、コンテキスト内のモデル機能を明示的にエンコードすることで、事前訓練された値推定を実現する。
本稿では,このような値モデルにより予測されるベースラインと,スパースロールアウトから導出される経験的平均とを適応的に融合する$V_0.5$を提案する。
V_0.5$はGRPOとDAPOを大きく上回り、より高速な収束と約10%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-03-11T14:57:41Z) - Conformal Thinking: Risk Control for Reasoning on a Compute Budget [60.65072883773352]
大規模言語モデル(LLM)の推論により、トークンの予算が増加するにつれて、データセットレベルの精度が向上する。
我々は、予算設定問題をリスクコントロールとして再設定し、計算を最小化しながらエラー率を制限する。
我々のフレームワークは、モデルが自信のあるときに推論を停止する上位しきい値と、未解決のインスタンスを事前に停止させる新しい下位しきい値を導入する。
論文 参考訳(メタデータ) (2026-02-03T18:17:22Z) - Anytime Incremental $ρ$POMDP Planning in Continuous Spaces [5.767643556541711]
我々は、時間とともに改善の正式な保証とともに、信念表現を動的に洗練する時限解法を提案する。
一般的なエントロピー推定器の有効性を示し、計算コストを桁違いに削減する。
実験の結果,$rho$POMCPOW は効率と解品質の両方において最先端の解法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-04T18:19:40Z) - Improved Monte Carlo Planning via Causal Disentanglement for Structurally-Decomposed Markov Decision Processes [0.9768138268100163]
本稿では,MDPの時間的因果グラフを独立成分に分割するために,因果解離を利用した構造分解型MDP(SD-MDP)を提案する。
様々な物流および金融分野のベンチマークよりも優れた政策性能を示す。
論文 参考訳(メタデータ) (2024-06-23T16:22:40Z) - End-to-End Reinforcement Learning of Koopman Models for Economic Nonlinear Model Predictive Control [45.84205238554709]
本研究では, (e)NMPCの一部として最適性能を示すために, Koopman シュロゲートモデルの強化学習法を提案する。
エンドツーエンドトレーニングモデルは,(e)NMPCにおけるシステム識別を用いてトレーニングしたモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-03T10:21:53Z) - Provably Efficient Model-Free Algorithms for Non-stationary CMDPs [10.930095238723327]
非定常制約マルコフ決定過程におけるモデルフリー強化学習アルゴリズムについて検討した。
非定常環境では、累積変動が一定の変動予算を超えない限り、報酬、ユーティリティ関数、遷移カーネルは時間とともに任意に変化する。
本稿では,非定常CMDPに対するサブ線形後悔と制約違反をゼロとする,モデルフリーでシミュレータフリーなRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-10T06:33:38Z) - Blending MPC & Value Function Approximation for Efficient Reinforcement
Learning [42.429730406277315]
モデル予測制御(MPC)は、複雑な実世界のシステムを制御する強力なツールである。
モデルフリー強化学習(RL)によるMPC改善のためのフレームワークを提案する。
我々は,本手法がmpcに匹敵する性能と真のダイナミクスを両立できることを示す。
論文 参考訳(メタデータ) (2020-12-10T11:32:01Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。