論文の概要: Policy Learning for Balancing Short-Term and Long-Term Rewards
- arxiv url: http://arxiv.org/abs/2405.03329v1
- Date: Mon, 6 May 2024 10:09:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 14:06:06.146961
- Title: Policy Learning for Balancing Short-Term and Long-Term Rewards
- Title(参考訳): 短期的・長期的リワードのバランスをとるための政策学習
- Authors: Peng Wu, Ziyu Shen, Feng Xie, Zhongyao Wang, Chunchen Liu, Yan Zeng,
- Abstract要約: 本稿では,長期的成果の欠落を許容する最適政策を学習するための新しい枠組みを定式化する。
短期的な成果は、関連する場合、長期的な報酬バランスの推定能力の向上に寄与することを示す。
- 参考スコア(独自算出の注目度): 11.859587700058235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empirical researchers and decision-makers spanning various domains frequently seek profound insights into the long-term impacts of interventions. While the significance of long-term outcomes is undeniable, an overemphasis on them may inadvertently overshadow short-term gains. Motivated by this, this paper formalizes a new framework for learning the optimal policy that effectively balances both long-term and short-term rewards, where some long-term outcomes are allowed to be missing. In particular, we first present the identifiability of both rewards under mild assumptions. Next, we deduce the semiparametric efficiency bounds, along with the consistency and asymptotic normality of their estimators. We also reveal that short-term outcomes, if associated, contribute to improving the estimator of the long-term reward. Based on the proposed estimators, we develop a principled policy learning approach and further derive the convergence rates of regret and estimation errors associated with the learned policy. Extensive experiments are conducted to validate the effectiveness of the proposed method, demonstrating its practical applicability.
- Abstract(参考訳): 様々な領域にまたがる実証的な研究者や意思決定者は、介入の長期的な影響について深い洞察を求めることが多い。
長期的な成果の重要性は否定できないが、それらに対する過度の強調は必然的に短期的な利益を覆す可能性がある。
そこで本研究では,長期的報酬と短期的報酬を効果的にバランスする最適な政策を学習するための新たな枠組みを定式化する。
特に、まず、軽度の仮定で両報酬の同一性を示す。
次に、半パラメトリック効率境界を、それらの推定器の整合性と漸近正規性とともに導出する。
また、短期的な成果が関連する場合、長期的な報奨の見積りの改善に寄与することを明らかにする。
提案した推定値に基づいて,原則的政策学習手法を開発し,さらに,学習した方針に付随する後悔と推定誤差の収束率を導出する。
提案手法の有効性を検証し,その有効性を実証するための実験を行った。
関連論文リスト
- Reduced-Rank Multi-objective Policy Learning and Optimization [57.978477569678844]
実際には、因果研究者は先験を念頭において1つの結果を持っていない。
政府支援の社会福祉プログラムでは、政策立案者は貧困の多次元的性質を理解するために多くの成果を集めている。
本稿では、最適政策学習の文脈において、複数の結果に対するデータ駆動型次元性推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T08:16:30Z) - Long-term Off-Policy Evaluation and Learning [21.047613223586794]
アルゴリズムの短期的および長期的な結果はしばしば異なり、下流効果を損なう。
関心の長期的な結果を見るのに数ヶ月かそれ以上かかるので、アルゴリズムの選択プロセスは受け入れがたいほど遅くなります。
本稿では,報酬関数の分解に基づく長期オフライン評価(LOPE)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-24T06:59:59Z) - Pareto-Optimal Estimation and Policy Learning on Short-term and
Long-term Treatment Effects [36.46155152979874]
短期的効果と長期的効果のトレードオフ、あるいは最適な治療を達成するための両者のトレードオフは、依然としてオープンな課題である。
本稿では,これらの問題を体系的に検討し,POEとPOPLを組み合わせたPareto-Efficientアルゴリズムを提案する。
合成と実世界の両方のデータセットで,本手法の優位性を実証した。
論文 参考訳(メタデータ) (2024-03-05T03:32:02Z) - Loss Shaping Constraints for Long-Term Time Series Forecasting [79.3533114027664]
本稿では,長期時系列予測のための制約付き学習手法を提案する。
提案手法は, 予測ウィンドウ上でエラーを発生させながら, 時系列ベンチマークにおける競合平均性能を示すことを示すための, 実用的なプリマル・デュアルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:20:44Z) - Adapting Static Fairness to Sequential Decision-Making: Bias Mitigation Strategies towards Equal Long-term Benefit Rate [41.51680686036846]
逐次意思決定におけるバイアスに対処するため,Equal Long-term Benefit Rate (ELBERT) という長期公正性の概念を導入する。
ELBERTは、以前の長期公正の概念に見られる時間的差別問題に効果的に対処する。
ELBERT-POは高い有効性を維持しながらバイアスを著しく減少させることを示した。
論文 参考訳(メタデータ) (2023-09-07T01:10:01Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Targeting for long-term outcomes [1.7205106391379026]
意思決定者は、長期的にのみ観察される結果を最大化するために、介入を標的にしたい場合が多い。
ここでは、欠落した長期的成果を暗示するために、統計的代理と政策学習文献に基づいて構築する。
The Boston Globeにおける2つの大規模プロアクティブチャーン管理実験に本手法を適用した。
論文 参考訳(メタデータ) (2020-10-29T18:31:17Z) - Long-Term Effect Estimation with Surrogate Representation [43.932546958874696]
本研究は、一次利害関係(一次利害関係)の結果が蓄積されるまでに数ヶ月、あるいは数年を要する長期的効果の問題を研究する。
本稿では,機械学習における因果推論と逐次モデルとの接続を構築することを提案する。
論文 参考訳(メタデータ) (2020-08-19T03:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。