論文の概要: Learning Underspecified Models
- arxiv url: http://arxiv.org/abs/2207.10140v1
- Date: Wed, 20 Jul 2022 18:42:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 13:48:16.952531
- Title: Learning Underspecified Models
- Title(参考訳): 未特定モデルを学ぶ
- Authors: In-Koo Cho and Jonathan Libgober
- Abstract要約: 本稿では,環境の真の仕様を知りながら,最適な動作を学べるかどうかを検討する。
データに基づいて最適な価格を予測するアルゴリズムとして学習力学を定式化する。
PAC学習性にインスパイアされた我々は,アルゴリズムが正確な予測を生成する必要があることを要求して,学習可能性の新しい概念を開発する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper examines whether one can learn to play an optimal action while
only knowing part of true specification of the environment. We choose the
optimal pricing problem as our laboratory, where the monopolist is endowed with
an underspecified model of the market demand, but can observe market outcomes.
In contrast to conventional learning models where the model specification is
complete and exogenously fixed, the monopolist has to learn the specification
and the parameters of the demand curve from the data. We formulate the learning
dynamics as an algorithm that forecast the optimal price based on the data,
following the machine learning literature (Shalev-Shwartz and Ben-David
(2014)). Inspired by PAC learnability, we develop a new notion of learnability
by requiring that the algorithm must produce an accurate forecast with a
reasonable amount of data uniformly over the class of models consistent with
the part of the true specification. In addition, we assume that the monopolist
has a lexicographic preference over the payoff and the complexity cost of the
algorithm, seeking an algorithm with a minimum number of parameters subject to
PAC-guaranteeing the optimal solution (Rubinstein (1986)). We show that for the
set of demand curves with strictly decreasing uniformly Lipschitz continuous
marginal revenue curve, the optimal algorithm recursively estimates the slope
and the intercept of the linear demand curve, even if the actual demand curve
is not linear. The monopolist chooses a misspecified model to save
computational cost, while learning the true optimal decision uniformly over the
set of underspecified demand curves.
- Abstract(参考訳): 本稿では,環境の真の仕様を知りながら,最適な動作を学べるかどうかを検討する。
我々は、市場需要の未特定モデルで独占を担っているが、市場の結果を観察できる実験室として最適な価格問題を選択する。
モデル仕様が完全かつ均一に固定された従来の学習モデルとは対照的に、モノポリスはデータから要求曲線の仕様とパラメータを学習しなければならない。
機械学習の文献(Shalev-Shwartz と Ben-David (2014))に従って,データに基づいて最適な価格を予測するアルゴリズムとして学習力学を定式化する。
PAC学習性に着想を得て,本アルゴリズムは,真の仕様の一部と整合したモデルのクラスに対して,妥当なデータ量で正確な予測をしなければならないことを要求して,学習可能性の新しい概念を開発する。
さらに, モノポリスは, PAC-guaranteeing the optimal solution (1986) を対象とする最小数のパラメータを持つアルゴリズムを求めることにより, アルゴリズムのペイオフと複雑性コストに対して, 語彙的優先性を持つと仮定する(Rubinstein (1986))。
本研究では, リプシッツ連続限界収益曲線を厳密に減少させた需要曲線に対して, 実需要曲線が線形でない場合でも, 最適アルゴリズムは勾配と線形需要曲線のインターセプトを再帰的に推定することを示した。
モノポリスは計算コストを抑えるために不特定モデルを選択し、不特定需要曲線の集合に対して真の最適決定を均一に学習する。
関連論文リスト
- Contextual Dynamic Pricing: Algorithms, Optimality, and Local Differential Privacy Constraints [10.057344315478709]
企業が商品をT$で販売する状況的動的価格問題について検討する。
まず、最適後悔上限は、対数係数まで、次数$sqrtdT$であることを示す。
理論的結果の重要な洞察は、動的価格と文脈的マルチアームバンディット問題との本質的な関係である。
論文 参考訳(メタデータ) (2024-06-04T15:44:10Z) - The High Line: Exact Risk and Learning Rate Curves of Stochastic Adaptive Learning Rate Algorithms [8.681909776958184]
本研究では,高次元最適化問題の大規模なクラスにおいて,学習速度と学習速度のダイナミクスを解析するためのフレームワークを開発する。
我々は、ODEのシステムに対する決定論的解という観点から、リスクと学習率曲線の正確な表現を与える。
最小二乗問題に対する最適正則線探索とAdaGrad-Normの2つの適応学習率について詳細に検討する。
論文 参考訳(メタデータ) (2024-05-30T00:27:52Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Anytime Model Selection in Linear Bandits [61.97047189786905]
ALEXPは,その後悔に対するM$への依存を指数関数的に改善した。
提案手法は,オンライン学習と高次元統計学の新たな関連性を確立するために,ラッソの時間的一様解析を利用する。
論文 参考訳(メタデータ) (2023-07-24T15:44:30Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Implicit Parameter-free Online Learning with Truncated Linear Models [51.71216912089413]
パラメータフリーアルゴリズムは、設定された学習率を必要としないオンライン学習アルゴリズムである。
そこで我々は,「単純」なフレーバーを持つ新しい更新によって,切り離された線形モデルを活用できる新しいパラメータフリーアルゴリズムを提案する。
後悔の新たな分解に基づいて、新しい更新は効率的で、各ステップで1つの勾配しか必要とせず、切り捨てられたモデルの最小値をオーバーシュートすることはない。
論文 参考訳(メタデータ) (2022-03-19T13:39:49Z) - Near-Optimal Reward-Free Exploration for Linear Mixture MDPs with
Plug-in Solver [32.212146650873194]
報酬信号のガイダンスを使わずにRLモデルを効率的に学習するためのアプローチを提案する。
特に、私たちは、探索フェーズにおけるモデル学習に集中するプラグインソルバアプローチを採用しています。
新たな探索アルゴリズムを確立することで,プラグインアプローチは環境との相互作用を$tildeO(d2H3/epsilon2)$とすることでモデルを学習することを示す。
論文 参考訳(メタデータ) (2021-10-07T07:59:50Z) - Markdowns in E-Commerce Fresh Retail: A Counterfactual Prediction and
Multi-Period Optimization Approach [29.11201102550876]
半パラメトリック構造モデルを構築し、価格の弾力性を学習し、対物需要を予測する。
本稿では,有限販売地平線上での消耗品全体の利益を最大化するために,多周期動的価格アルゴリズムを提案する。
提案されたフレームワークは、よく知られたeコマースの新鮮な小売シナリオであるFreshippoにうまくデプロイされている。
論文 参考訳(メタデータ) (2021-05-18T07:01:37Z) - Competition analysis on the over-the-counter credit default swap market [0.0]
両立関係の競合は, 相互の要求により検討する。
初期マージン要件をうまく見積もるモデルを提案する。
第2に、新しい半教師付き予測タスクを用いて、インターディーラー市場での選択肢をモデル化する。
論文 参考訳(メタデータ) (2020-12-03T13:02:53Z) - Online Model Selection for Reinforcement Learning with Function
Approximation [50.008542459050155]
我々は、$tildeO(L5/6 T2/3)$ regretで最適な複雑性に適応するメタアルゴリズムを提案する。
また、メタアルゴリズムは、インスタンス依存の後悔境界を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-11-19T10:00:54Z) - Progressive Identification of True Labels for Partial-Label Learning [112.94467491335611]
部分ラベル学習(Partial-label Learning, PLL)は、典型的な弱教師付き学習問題であり、各トレーニングインスタンスには、真のラベルである候補ラベルのセットが設けられている。
既存のほとんどの手法は、特定の方法で解決しなければならない制約付き最適化として精巧に設計されており、計算複雑性をビッグデータにスケールアップするボトルネックにしている。
本稿では,モデルと最適化アルゴリズムの柔軟性を備えた分類器の新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。