論文の概要: Model Selection in Batch Policy Optimization
- arxiv url: http://arxiv.org/abs/2112.12320v1
- Date: Thu, 23 Dec 2021 02:31:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-24 14:27:27.378597
- Title: Model Selection in Batch Policy Optimization
- Title(参考訳): バッチポリシー最適化におけるモデル選択
- Authors: Jonathan N. Lee, George Tucker, Ofir Nachum, Bo Dai
- Abstract要約: バッチポリシー最適化におけるモデル選択の問題について検討する。
我々は,任意のモデル選択アルゴリズムが競争力を得るために最適にトレードオフすべきという誤りの3つの源を同定する。
- 参考スコア(独自算出の注目度): 88.52887493684078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of model selection in batch policy optimization: given a
fixed, partial-feedback dataset and $M$ model classes, learn a policy with
performance that is competitive with the policy derived from the best model
class. We formalize the problem in the contextual bandit setting with linear
model classes by identifying three sources of error that any model selection
algorithm should optimally trade-off in order to be competitive: (1)
approximation error, (2) statistical complexity, and (3) coverage. The first
two sources are common in model selection for supervised learning, where
optimally trading-off these properties is well-studied. In contrast, the third
source is unique to batch policy optimization and is due to dataset shift
inherent to the setting. We first show that no batch policy optimization
algorithm can achieve a guarantee addressing all three simultaneously,
revealing a stark contrast between difficulties in batch policy optimization
and the positive results available in supervised learning. Despite this
negative result, we show that relaxing any one of the three error sources
enables the design of algorithms achieving near-oracle inequalities for the
remaining two. We conclude with experiments demonstrating the efficacy of these
algorithms.
- Abstract(参考訳): 固定された部分フィードバックデータセットと$M$モデルクラスを与えられた場合、最良のモデルクラスから派生したポリシーと競合する性能を持つポリシーを学習する。
1)近似誤差,(2)統計複雑性,(3)カバレッジという,任意のモデル選択アルゴリズムが最適にトレードオフすべき3つのエラー源を特定することで,線形モデルクラスを用いた文脈的帯域設定の問題を定式化する。
最初の2つのソースは教師付き学習のためのモデル選択において一般的であり、そこではこれらの特性を最適にトレードオフする。
対照的に、第3のソースはバッチポリシの最適化に特有であり、データセットのシフトによるものである。
まず,バッチポリシ最適化の難しさと教師付き学習で得られる肯定的な結果との対比から,バッチポリシ最適化アルゴリズムでは3つすべてを同時に対応できる保証が実現できないことを示す。
この否定的な結果にもかかわらず、3つの誤差源のうち1つを緩和することで、残りの2つの不等式に近似するアルゴリズムを設計できることを示す。
これらのアルゴリズムの有効性を実証する実験で締めくくった。
関連論文リスト
- Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。
本稿では,関数近似に適合する2つの実験計画戦略を提案する。
そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-10T14:40:23Z) - Probabilistic Bilevel Coreset Selection [24.874967723659022]
本稿では,各トレーニングサンプルの確率的重みを学習することにより,コアセット選択の連続確率的2レベル定式化を提案する。
暗黙的な微分の問題を伴わずに、偏りのない政策勾配を経由し、二段階最適化問題に対する効率的な解法を開発する。
論文 参考訳(メタデータ) (2023-01-24T09:37:00Z) - Policy learning "without'' overlap: Pessimism and generalized empirical
Bernstein's inequality [107.84979976896912]
オフライン政策学習は、収集された優先順位を利用して、最適な個別化決定ルールを学ぶことを目的としている。
既存のポリシー学習手法は、一様重なりの仮定、すなわち、すべての個々の特性に対する全てのアクションを探索する確率は、オフラインデータセットにおいて低い境界となる。
本稿では,政策値の点推定ではなく,低信頼境界(LCB)を最適化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Oracle Inequalities for Model Selection in Offline Reinforcement
Learning [105.74139523696284]
本稿では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。
対数係数まで最小値の速度-最適不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。
そこで本研究では,優れたモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
論文 参考訳(メタデータ) (2022-11-03T17:32:34Z) - Efficient Learning of Decision-Making Models: A Penalty Block Coordinate
Descent Algorithm for Data-Driven Inverse Optimization [12.610576072466895]
我々は、意思決定プロセスを明らかにするために、事前の意思決定データを使用する逆問題を考える。
この統計的学習問題は、データ駆動逆最適化と呼ばれる。
そこで本稿では,大規模問題を解くために,効率的なブロック座標降下に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-27T12:52:56Z) - Cost-Effective Online Contextual Model Selection [14.094350329970537]
我々は,このタスクを,学習者が文脈とともにラベルのないデータポイントを受信する,オンラインコンテキストアクティブモデル選択問題として定式化する。
目標は、ラベルの過剰な量を得ることなく、任意のコンテキストに対して最良のモデルを出力することである。
本稿では,適応モデル選択のためのポリシークラスに定義された新しい不確実性サンプリングクエリ基準に依存する,文脈型アクティブモデル選択アルゴリズム(CAMS)を提案する。
論文 参考訳(メタデータ) (2022-07-13T08:22:22Z) - Sample Selection for Fair and Robust Training [28.94276265328868]
公平でロバストなトレーニングのためのサンプル選択に基づくアルゴリズムを提案する。
提案アルゴリズムは,最先端技術に匹敵する公平性と堅牢性が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T07:17:29Z) - Auto-weighted Multi-view Feature Selection with Graph Optimization [90.26124046530319]
グラフ学習に基づく新しい教師なしマルチビュー特徴選択モデルを提案する。
1) 特徴選択過程において, 異なる視点で共有されたコンセンサス類似度グラフが学習される。
各種データセットを用いた実験により,提案手法が最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-11T03:25:25Z) - Data-efficient Hindsight Off-policy Option Learning [20.42535406663446]
データ効率のよいオプション学習アルゴリズムであるHendsight Off-policy Options (HO2)を導入する。
それは、すべての政策コンポーネントを、政治とエンドツーエンドで堅牢に訓練する。
このアプローチは、一般的なベンチマークで既存のオプション学習方法よりも優れています。
論文 参考訳(メタデータ) (2020-07-30T16:52:33Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。