論文の概要: Pessimistic Off-Policy Multi-Objective Optimization
- arxiv url: http://arxiv.org/abs/2310.18617v1
- Date: Sat, 28 Oct 2023 06:50:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 17:30:35.844245
- Title: Pessimistic Off-Policy Multi-Objective Optimization
- Title(参考訳): 悲観的オフポリシー多目的最適化
- Authors: Shima Alizadeh, Aniruddha Bhargava, Karthick Gopalswamy, Lalit Jain,
Branislav Kveton, and Ge Liu
- Abstract要約: 既存のポリシーによって収集されたデータから,多目的ポリシーのオフライン最適化について検討する。
本稿では,多目的ポリシー値に対する悲観的推定器を提案する。
- 参考スコア(独自算出の注目度): 22.525654101072252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-objective optimization is a type of decision making problems where
multiple conflicting objectives are optimized. We study offline optimization of
multi-objective policies from data collected by an existing policy. We propose
a pessimistic estimator for the multi-objective policy values that can be
easily plugged into existing formulas for hypervolume computation and
optimized. The estimator is based on inverse propensity scores (IPS), and
improves upon a naive IPS estimator in both theory and experiments. Our
analysis is general, and applies beyond our IPS estimators and methods for
optimizing them. The pessimistic estimator can be optimized by policy gradients
and performs well in all of our experiments.
- Abstract(参考訳): 多目的最適化は、複数の矛盾する目的が最適化される意思決定問題の一種である。
既存のポリシーによって収集されたデータから多目的ポリシーをオフラインで最適化する。
本稿では,多目的ポリシー値に対する悲観的推定器を提案する。
推定器は逆確率スコア(IPS)に基づいており、理論と実験の両方において単純なIPS推定器によって改善される。
我々の分析は一般的に、IPS推定器や最適化方法を超えて適用されます。
悲観的推定器は政策勾配によって最適化でき、我々のすべての実験でうまく機能する。
関連論文リスト
- Overcoming Reward Overoptimization via Adversarial Policy Optimization
with Lightweight Uncertainty Estimation [50.0151082930949]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Towards Efficient and Exact Optimization of Language Model Alignment [97.41422112912574]
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
我々は,EXOがRLアルゴリズムと同じ方向に最適化されることを証明した。
さらに、現実的な人間の嗜好データに対する既存のアプローチよりも、提案手法の利点を実証する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - qPOTS: Efficient batch multiobjective Bayesian optimization via Pareto
optimal Thompson sampling [0.0]
多目的最適化を解くためのサンプル効率のアプローチはプロセス・オラクル・サロゲート (GP) を経由する。
本稿では,ランダムGPサンプルのフロンティアから新しい候補を選択する,単純かつ効果的なトンプソンサンプリングに基づくアプローチを提案する。
提案手法は, 実世界の実験だけでなく, 精度, 計算効率の両面において, 高い実験性能を示すものである。
論文 参考訳(メタデータ) (2023-10-24T12:35:15Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Pessimistic Off-Policy Optimization for Learning to Rank [9.197878514042227]
オフ政治学習は、ポリシーをデプロイせずに最適化するためのフレームワークである。
レコメンデーションシステムでは、ログデータの不均衡のため、これは特に難しい。
我々は、ランク付け学習のための悲観的非政治最適化について研究する。
論文 参考訳(メタデータ) (2022-06-06T12:58:28Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Optimistic Distributionally Robust Policy Optimization [2.345728642535161]
Trust Region Policy Optimization (TRPO) と Proximal Policy Optimization (PPO) は、特定のパラメトリック分布クラスにポリシー表現を制限するため、準最適解に収束する傾向にある。
そこで我々は,信頼領域制約最適化問題をパラメータ化せずに解くために,最適分布ロバストポリシ最適化(ODRO)アルゴリズムを開発した。
提案アルゴリズムは, TRPOとPPOを改良し, 学習安定性を確保しつつ, サンプル効率の向上と最終方針の性能向上を実現した。
論文 参考訳(メタデータ) (2020-06-14T06:36:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。