論文の概要: Diffusion Approximations for a Class of Sequential Testing Problems
- arxiv url: http://arxiv.org/abs/2102.07030v1
- Date: Sat, 13 Feb 2021 23:21:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 16:05:21.926412
- Title: Diffusion Approximations for a Class of Sequential Testing Problems
- Title(参考訳): 逐次テスト問題のクラスに対する拡散近似
- Authors: Victor F. Araman, Rene Caldentey
- Abstract要約: 私達は市場へ進水するプロダクトの最適の品揃えを選びたいと思う販売人の問題を研究します。
電子商取引における新興の慣行に触発されて、売り手はこれらの嗜好を学習するためにクラウド投票システムを利用することができると仮定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a decision maker who must choose an action in order to maximize a
reward function that depends also on an unknown parameter {\Theta}. The
decision maker can delay taking the action in order to experiment and gather
additional information on {\Theta}. We model the decision maker's problem using
a Bayesian sequential experimentation framework and use dynamic programming and
diffusion-asymptotic analysis to solve it. For that, we scale our problem in a
way that both the average number of experiments that is conducted per unit of
time is large and the informativeness of each individual experiment is low.
Under such regime, we derive a diffusion approximation for the sequential
experimentation problem, which provides a number of important insights about
the nature of the problem and its solution. Our solution method also shows that
the complexity of the problem grows only quadratically with the cardinality of
the set of actions from which the decision maker can choose. We illustrate our
methodology and results using a concrete application in the context of
assortment selection and new product introduction. Specifically, we study the
problem of a seller who wants to select an optimal assortment of products to
launch into the marketplace and is uncertain about consumers' preferences.
Motivated by emerging practices in e-commerce, we assume that the seller is
able to use a crowdvoting system to learn these preferences before a final
assortment decision is made. In this context, we undertake an extensive
numerical analysis to assess the value of learning and demonstrate the
effectiveness and robustness of the heuristics derived from the diffusion
approximation.
- Abstract(参考訳): 我々は、未知のパラメータに依存する報酬関数を最大化するために、アクションを選択する必要がある意思決定者を考える。
意思決定者は、実験を行い、さらに情報を集めるために、アクションを取るのを遅らせることができる。
ベイズ逐次実験フレームワークを用いて意思決定者の問題をモデル化し,動的計画法と拡散漸近解析を用いて解く。
そのため、単位時間当たりに実施される平均的な実験数と個々の実験のインフォメーション性が低くなるように、問題をスケールする。
このような体制の下で、我々は、問題の性質とその解に関する多くの重要な洞察を提供する連続実験問題の拡散近似を導出する。
我々の解法はまた、問題の複雑さは、意思決定者が選択できる一連の行動のカーディナリティとのみ二次的に成長することを示している。
我々は,品揃え選択と新製品の導入という文脈で,具体的アプリケーションを用いた方法論と結果を紹介する。
具体的には,市場に出品する商品の最適品揃えの選択を希望し,消費者の嗜好について不透明な売り手の問題について検討する。
電子商取引における新興の慣行に触発されて、最終的な品揃え決定が下される前に、売り手は群衆投票システムを使ってこれらの嗜好を学習できると仮定する。
この文脈では,学習の価値を評価するために広範な数値解析を行い,拡散近似から導かれるヒューリスティックスの有効性と頑健性を示す。
関連論文リスト
- Experimentation Platforms Meet Reinforcement Learning: Bayesian
Sequential Decision-Making for Continuous Monitoring [13.62951379287041]
本稿では、顧客体験を最大化し、機会コストを制御するためにAmazonで開発した新しいフレームワークを紹介する。
この問題を統一効用関数を持つベイズ最適逐次決定問題として定式化する。
本手法の有効性を,Amazon実験における大規模メタ分析による既存手法と比較した。
論文 参考訳(メタデータ) (2023-04-02T00:59:10Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
我々は,選択戦略,候補推定器,テストに用いるDGPとの間には複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Evaluating Guiding Spaces for Motion Planning [2.384084215091134]
我々は、同じ枠組みの下で、見かけ上の異なる多くの先行研究をカプセル化するエンフモーション計画誘導空間を定義する。
また,得られたバイアスサンプリングの品質に焦点をあてた案内計画を評価するための情報理論手法を提案する。
論文 参考訳(メタデータ) (2022-10-16T21:17:51Z) - Efficient Real-world Testing of Causal Decision Making via Bayesian
Experimental Design for Contextual Optimisation [12.37745209793872]
文脈的意思決定の評価と改善のためのデータ収集のためのモデルに依存しないフレームワークを提案する。
過去の治療課題の後悔をデータ効率で評価するために,本手法を用いた。
論文 参考訳(メタデータ) (2022-07-12T01:20:11Z) - Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。
本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文 参考訳(メタデータ) (2022-01-28T05:53:28Z) - A Mutual Information Maximization Approach for the Spurious Solution
Problem in Weakly Supervised Question Answering [60.768146126094955]
弱々しい教師付き質問応答は通常、最終的な答えのみを監督信号として持つ。
偶然に正解を導出する刺激的な解が多数存在するかもしれないが、そのような解の訓練はモデルの性能を損なう可能性がある。
本稿では,質問応答対と予測解間の相互情報の最大化により,このような意味的相関を明示的に活用することを提案する。
論文 参考訳(メタデータ) (2021-06-14T05:47:41Z) - Targeted Active Learning for Bayesian Decision-Making [15.491942513739676]
サンプルを逐次取得する際には,学習と意思決定を分離することが準最適である。
本稿では,ダウン・ザ・ライン決定問題を考慮に入れた,新たなアクティブな学習戦略を提案する。
具体的には、最適決定の後続分布における期待情報ゲインを最大化する、新しい能動的学習基準を導入する。
論文 参考訳(メタデータ) (2021-06-08T09:05:43Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [89.01584399789951]
歴史的専門家の意思決定を豊富な情報源として利用することを検討します。
観察されたラベルだけで学習する制限を緩和するために活用できることを示しています。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Inverse Active Sensing: Modeling and Understanding Timely
Decision-Making [111.07204912245841]
我々は,内因性,文脈依存型時間圧下でのエビデンスに基づく意思決定の一般的な設定のための枠組みを開発する。
意思決定戦略において、サプライズ、サスペンス、最適性の直感的な概念をモデル化する方法を実証する。
論文 参考訳(メタデータ) (2020-06-25T02:30:45Z) - Value of Information Analysis via Active Learning and Knowledge Sharing
in Error-Controlled Adaptive Kriging [7.148732567427574]
本稿では,情報の価値(VoI)分析のための最初のサロゲートベースのフレームワークを提案する。
複数の関心事の可能性を更新するために、サロゲートモデル間の観測から平等な情報を共有することができる。
トラスブリッジの負荷試験を含む最適決定問題に対して,提案手法を適用した。
論文 参考訳(メタデータ) (2020-02-06T16:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。