論文の概要: Oracle-Efficient Pessimism: Offline Policy Optimization in Contextual
Bandits
- arxiv url: http://arxiv.org/abs/2306.07923v2
- Date: Wed, 25 Oct 2023 23:57:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 05:02:03.731140
- Title: Oracle-Efficient Pessimism: Offline Policy Optimization in Contextual
Bandits
- Title(参考訳): Oracle-Efficient Pessimism: コンテキスト帯域におけるオフラインポリシー最適化
- Authors: Lequn Wang, Akshay Krishnamurthy, Aleksandrs Slivkins
- Abstract要約: 悲観的OPOのための最初の一般オラクル効率アルゴリズムを提案する。
従来の悲観的アプローチと類似した統計的保証を得る。
我々は多種多様な構成の非正規化OPOに対して優位性を示す。
- 参考スコア(独自算出の注目度): 82.28442917447643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider offline policy optimization (OPO) in contextual bandits, where
one is given a fixed dataset of logged interactions. While pessimistic
regularizers are typically used to mitigate distribution shift, prior
implementations thereof are either specialized or computationally inefficient.
We present the first general oracle-efficient algorithm for pessimistic OPO: it
reduces to supervised learning, leading to broad applicability. We obtain
statistical guarantees analogous to those for prior pessimistic approaches. We
instantiate our approach for both discrete and continuous actions and perform
experiments in both settings, showing advantage over unregularized OPO across a
wide range of configurations.
- Abstract(参考訳): 我々は、オフラインポリシー最適化(OPO)を、ログ化されたインタラクションの固定データセットが与えられるコンテキスト的帯域で検討する。
悲観的正規化子は通常分布シフトを緩和するために用いられるが、それ以前の実装は特殊または計算的に非効率である。
我々は、悲観的OPOのための最初の一般的なオラクル効率アルゴリズムを提示する:それは教師あり学習に還元し、幅広い適用性をもたらす。
先行する悲観的アプローチに類似した統計的保証を得る。
我々は、離散的かつ連続的な動作のアプローチをインスタンス化し、両方の設定で実験を行い、広範囲な構成で非正規化されたOPOよりも有利であることを示す。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。
本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。
PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文 参考訳(メタデータ) (2024-02-16T19:35:58Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Learning in Observable POMDPs, without Computationally Intractable
Oracles [23.636033995089587]
我々は,PMDPのための最初のオラクルフリー学習アルゴリズムを合理的な仮定で開発する。
具体的には、「観測可能」なPOMDPで学習するための準ポロリノミカル時間終端アルゴリズムを与えるが、観測可能性とは、状態上のよく分断された分布が観察よりもよく分断された分布を誘導するという仮定である。
論文 参考訳(メタデータ) (2022-06-07T17:05:27Z) - Pessimistic Off-Policy Optimization for Learning to Rank [9.197878514042227]
オフ政治学習は、ポリシーをデプロイせずに最適化するためのフレームワークである。
レコメンデーションシステムでは、ログデータの不均衡のため、これは特に難しい。
我々は、ランク付け学習のための悲観的非政治最適化について研究する。
論文 参考訳(メタデータ) (2022-06-06T12:58:28Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - On the Optimality of Batch Policy Optimization Algorithms [106.89498352537682]
バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。
信頼調整インデックスアルゴリズムは楽観的,悲観的,中立的いずれであってもミニマックス最適であることを示す。
最適値予測の本来の難易度を考慮した新しい重み付き最小値基準を提案する。
論文 参考訳(メタデータ) (2021-04-06T05:23:20Z) - Distributionally-Constrained Policy Optimization via Unbalanced Optimal
Transport [15.294456568539148]
入居対策の空間における不均衡な最適輸送として政策最適化を策定します。
Bregman発散に基づく汎用RL目標を提案し,Dykstraのアルゴリズムを用いて最適化する。
論文 参考訳(メタデータ) (2021-02-15T23:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。