論文の概要: Hyperparameter Optimization Can Even be Harmful in Off-Policy Learning and How to Deal with It
- arxiv url: http://arxiv.org/abs/2404.15084v1
- Date: Tue, 23 Apr 2024 14:34:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:42:03.339549
- Title: Hyperparameter Optimization Can Even be Harmful in Off-Policy Learning and How to Deal with It
- Title(参考訳): ハイパーパラメータ最適化は、オフ・ポリティ・ラーニングにおいて有害である可能性と対処方法
- Authors: Yuta Saito, Masahiro Nomura,
- Abstract要約: 我々は,HPOのサロゲート目的として一般化性能の非バイアス推定器を鼻で適用すると,予期せぬ故障が生じることを示した。
本稿では,上記の課題を同時に扱うために,一般的なHPO手順に対する単純で効率的な補正法を提案する。
- 参考スコア(独自算出の注目度): 20.312864152544954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been a growing interest in off-policy evaluation in the literature such as recommender systems and personalized medicine. We have so far seen significant progress in developing estimators aimed at accurately estimating the effectiveness of counterfactual policies based on biased logged data. However, there are many cases where those estimators are used not only to evaluate the value of decision making policies but also to search for the best hyperparameters from a large candidate space. This work explores the latter hyperparameter optimization (HPO) task for off-policy learning. We empirically show that naively applying an unbiased estimator of the generalization performance as a surrogate objective in HPO can cause an unexpected failure, merely pursuing hyperparameters whose generalization performance is greatly overestimated. We then propose simple and computationally efficient corrections to the typical HPO procedure to deal with the aforementioned issues simultaneously. Empirical investigations demonstrate the effectiveness of our proposed HPO algorithm in situations where the typical procedure fails severely.
- Abstract(参考訳): 推薦システムやパーソナライズドメディカル医療などの文献における非政治評価への関心が高まっている。
これまで、偏りのあるログデータに基づく対実的ポリシーの有効性を正確に推定することを目的とした推定器の開発において、大きな進展が見られた。
しかし、これらの推定器は意思決定ポリシーの価値を評価するだけでなく、大きな候補空間から最適なハイパーパラメータを探すために使われるケースも多い。
この研究は、非政治学習のための後者のハイパーパラメータ最適化(HPO)タスクを探求する。
我々は,HPOのサロゲート目的としての一般化性能の偏りのない推定器を実験的に適用すると予期せぬ失敗を生じさせ,単に一般化性能が過大評価されているハイパーパラメータを追求するだけであることを実証的に示す。
次に、上記の問題に同時に対処する典型的なHPO手順に対して、単純で効率的な修正を提案する。
提案手法の有効性を実証的に検証し,提案手法の有効性を検証した。
関連論文リスト
- Hierarchical Preference Optimization: Learning to achieve goals via feasible subgoals prediction [71.81851971324187]
本研究は階層型強化学習(HRL)の新しいアプローチである階層型優先度最適化(HPO)を導入する。
HPOは、複雑なロボット制御タスクを解く際に、非定常性と非実用的なサブゴール生成の問題に対処する。
挑戦的なロボットナビゲーションと操作タスクの実験はHPOの素晴らしいパフォーマンスを示しており、ベースラインよりも最大35%改善されている。
論文 参考訳(メタデータ) (2024-11-01T04:58:40Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Probabilistic Offline Policy Ranking with Approximate Bayesian
Computation [4.919605764492689]
安全性と信頼性のために、現実のデプロイメントの前に、候補ポリシーをオフラインで比較し、ランク付けすることが不可欠です。
我々は、OPR問題に対処する枠組みである確率的オフライン政策ランキング(POPR)を提示する。
POPRは値推定に依存せず、導出された性能後部は、最悪の、最も良い、平均的なケースの候補を区別するために使用することができる。
論文 参考訳(メタデータ) (2023-12-17T05:22:44Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z) - Evaluating the Robustness of Off-Policy Evaluation [10.760026478889664]
Off-policy Evaluation (OPE)は、オフラインログデータのみを活用する仮説的ポリシーの性能を評価する。
オンラインインタラクションが高利得と高価な設定を含むアプリケーションでは特に有用である。
我々は,OPE推定器のロバスト性を評価する実験手法であるIEOE(Interpretable Evaluation for Offline Evaluation)を開発した。
論文 参考訳(メタデータ) (2021-08-31T09:33:13Z) - Cost-Efficient Online Hyperparameter Optimization [94.60924644778558]
実験の単一実行でヒトのエキスパートレベルのパフォーマンスに達するオンラインHPOアルゴリズムを提案します。
提案するオンラインhpoアルゴリズムは,実験の1回で人間のエキスパートレベルのパフォーマンスに到達できるが,通常のトレーニングに比べて計算オーバーヘッドは少ない。
論文 参考訳(メタデータ) (2021-01-17T04:55:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。