論文の概要: Short-Long Policy Evaluation with Novel Actions
- arxiv url: http://arxiv.org/abs/2407.03674v1
- Date: Thu, 4 Jul 2024 06:42:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 19:02:03.736616
- Title: Short-Long Policy Evaluation with Novel Actions
- Title(参考訳): 新しい行動による短期政策評価
- Authors: Hyunji Alex Nam, Yash Chandak, Emma Brunskill,
- Abstract要約: 逐次意思決定タスクの短期的政策評価のための新しい設定を提案する。
提案手法は,HIV治療,腎臓透析,バッテリ充電のシミュレーターにおいて,従来よりも有意に優れていた。
また、新しい意思決定ポリシーが過去のポリシーよりも大幅にパフォーマンスが低下する可能性があることを素早く特定することで、AI安全性のアプリケーションに有効な方法を示す。
- 参考スコア(独自算出の注目度): 26.182640173932956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: From incorporating LLMs in education, to identifying new drugs and improving ways to charge batteries, innovators constantly try new strategies in search of better long-term outcomes for students, patients and consumers. One major bottleneck in this innovation cycle is the amount of time it takes to observe the downstream effects of a decision policy that incorporates new interventions. The key question is whether we can quickly evaluate long-term outcomes of a new decision policy without making long-term observations. Organizations often have access to prior data about past decision policies and their outcomes, evaluated over the full horizon of interest. Motivated by this, we introduce a new setting for short-long policy evaluation for sequential decision making tasks. Our proposed methods significantly outperform prior results on simulators of HIV treatment, kidney dialysis and battery charging. We also demonstrate that our methods can be useful for applications in AI safety by quickly identifying when a new decision policy is likely to have substantially lower performance than past policies.
- Abstract(参考訳): 教育におけるLSMの導入、新薬の特定、電池の充電方法の改善など、イノベーターは学生、患者、消費者にとってより良い長期的な結果を探すための新しい戦略を常に試みている。
このイノベーションサイクルにおける大きなボトルネックの1つは、新たな介入を取り入れた意思決定ポリシーの下流効果を観察するのに要する時間である。
鍵となる課題は、長期的な観察を行わずに、新たな意思決定方針の長期的な成果を迅速に評価できるかどうかである。
組織は、しばしば過去の意思決定方針とその成果に関する事前データにアクセスでき、関心の全体にわたって評価されます。
そこで我々は,シーケンシャルな意思決定タスクに対する短期的な政策評価のための新しい設定を導入する。
提案手法は,HIV治療,腎臓透析,バッテリ充電のシミュレーターにおいて,従来よりも有意に優れていた。
また、新しい意思決定ポリシーが過去のポリシーよりも大幅にパフォーマンスが低下する可能性があることを素早く特定することで、AI安全性のアプリケーションに有効な方法を示す。
関連論文リスト
- OPERA: Automatic Offline Policy Evaluation with Re-weighted Aggregates of Multiple Estimators [13.408838970377035]
オフライン政策評価(OPE)により、新たなシーケンシャルな意思決定方針のパフォーマンスを評価し、見積もることができる。
統計的手法を用いた明示的な選択に頼ることなく,データセットに与えられたOPE推定器の集合を適応的にブレンドするアルゴリズムを提案する。
我々の研究は、オフラインRLのための汎用的、推定対象に依存しない、非政治評価フレームワークの使いやすさの向上に寄与する。
論文 参考訳(メタデータ) (2024-05-27T23:51:20Z) - Logarithmic Smoothing for Pessimistic Off-Policy Evaluation, Selection and Learning [7.085987593010675]
本研究は,文脈的包帯問題のオフライン定式化について検討する。
目標は、行動ポリシーの下で収集された過去のインタラクションを活用して、新しい、より優れたパフォーマンスのポリシーを評価し、選択し、学習することである。
重要度重み付けリスク推定器の幅広いクラスに対して,新しい完全経験的濃度境界を導入する。
論文 参考訳(メタデータ) (2024-05-23T09:07:27Z) - Reduced-Rank Multi-objective Policy Learning and Optimization [57.978477569678844]
実際には、因果研究者は先験を念頭において1つの結果を持っていない。
政府支援の社会福祉プログラムでは、政策立案者は貧困の多次元的性質を理解するために多くの成果を集めている。
本稿では、最適政策学習の文脈において、複数の結果に対するデータ駆動型次元性推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T08:16:30Z) - Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning
Approach to Critical Care [68.8204255655161]
我々は、より信頼性の高いクリティカルケアポリシーを得ることができる深いQ-ラーニングアプローチを導入する。
まず、利用可能なすべての報酬に基づいてアクションセットを抽出し、次に、スパース主報酬に基づいて最終モデルを訓練し、制限されたアクションセットで達成する。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - On the Value of Myopic Behavior in Policy Reuse [67.37788288093299]
未知のシナリオで学習戦略を活用することは、人間の知性の基本である。
本稿では,Selectivemyopic bEhavior Control(SMEC)というフレームワークを提案する。
SMECは、事前ポリシーの共有可能な短期的行動とタスクポリシーの長期的行動を適応的に集約し、協調的な決定につながる。
論文 参考訳(メタデータ) (2023-05-28T03:59:37Z) - Evaluating COVID-19 vaccine allocation policies using Bayesian $m$-top
exploration [53.122045119395594]
マルチアーム・バンディット・フレームワークを用いてワクチンのアロケーション戦略を評価する新しい手法を提案する。
$m$-top Exploringにより、アルゴリズムは最高のユーティリティを期待する$m$ポリシーを学ぶことができる。
ベルギーのCOVID-19流行を個人モデルSTRIDEを用いて検討し、予防接種方針のセットを学習する。
論文 参考訳(メタデータ) (2023-01-30T12:22:30Z) - Identification of Subgroups With Similar Benefits in Off-Policy Policy
Evaluation [60.71312668265873]
我々は,パーソナライズの必要性と自信ある予測とのバランスをとる方法を開発した。
本手法は不均一な治療効果の正確な予測に有効であることを示す。
論文 参考訳(メタデータ) (2021-11-28T23:19:12Z) - Targeting for long-term outcomes [1.7205106391379026]
意思決定者は、長期的にのみ観察される結果を最大化するために、介入を標的にしたい場合が多い。
ここでは、欠落した長期的成果を暗示するために、統計的代理と政策学習文献に基づいて構築する。
The Boston Globeにおける2つの大規模プロアクティブチャーン管理実験に本手法を適用した。
論文 参考訳(メタデータ) (2020-10-29T18:31:17Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - Automatic Discovery of Interpretable Planning Strategies [9.410583483182657]
我々は、慣用的ポリシーを単純かつ解釈可能な記述に変換する方法であるAI-Interpretを紹介する。
フローチャートとしてAI-Interpretが生み出す決定ルールを守れば、人々の計画戦略や意思決定は大幅に改善される。
論文 参考訳(メタデータ) (2020-05-24T12:24:52Z) - Off-policy Policy Evaluation For Sequential Decisions Under Unobserved
Confounding [33.58862183373374]
観測不能条件下でのOPE手法のロバスト性を評価する。
また,OPE法に偏りが強い場合も少ないことが示唆された。
最悪ケース境界の計算に有効な損失最小化手法を提案する。
論文 参考訳(メタデータ) (2020-03-12T05:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。