論文の概要: TSEC: a framework for online experimentation under experimental
constraints
- arxiv url: http://arxiv.org/abs/2101.06592v1
- Date: Sun, 17 Jan 2021 05:04:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 20:12:34.395447
- Title: TSEC: a framework for online experimentation under experimental
constraints
- Title(参考訳): tsec:実験制約下におけるオンライン実験フレームワーク
- Authors: Simon Mak, Yuanshuo Zhou, Lavonne Hoang, C. F. Jeff Wu
- Abstract要約: トンプソンサンプリングは、複数の武装したバンディット問題を解決する一般的なアルゴリズムである。
今回提案するThompson Sampling under Experimental Constraints (TSEC)法は、このいわゆる「武器予算制約」に対処するものである。
我々は,arm予算制約を伴う2つの問題に対するtsecの有効性を実証する。
- 参考スコア(独自算出の注目度): 1.1470070927586016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thompson sampling is a popular algorithm for solving multi-armed bandit
problems, and has been applied in a wide range of applications, from website
design to portfolio optimization. In such applications, however, the number of
choices (or arms) $N$ can be large, and the data needed to make adaptive
decisions require expensive experimentation. One is then faced with the
constraint of experimenting on only a small subset of $K \ll N$ arms within
each time period, which poses a problem for traditional Thompson sampling. We
propose a new Thompson Sampling under Experimental Constraints (TSEC) method,
which addresses this so-called "arm budget constraint". TSEC makes use of a
Bayesian interaction model with effect hierarchy priors, to model correlations
between rewards on different arms. This fitted model is then integrated within
Thompson sampling, to jointly identify a good subset of arms for
experimentation and to allocate resources over these arms. We demonstrate the
effectiveness of TSEC in two problems with arm budget constraints. The first is
a simulated website optimization study, where TSEC shows noticeable
improvements over industry benchmarks. The second is a portfolio optimization
application on industry-based exchange-traded funds, where TSEC provides more
consistent and greater wealth accumulation over standard investment strategies.
- Abstract(参考訳): トンプソンサンプリング(Thompson sample)は、多武装バンディット問題を解決するための一般的なアルゴリズムであり、ウェブサイト設計からポートフォリオ最適化まで幅広いアプリケーションに適用されている。
しかし、そのようなアプリケーションでは、選択数(または腕)$N$は大きいため、適応的な決定を行うために必要なデータは高価な実験を必要とする。
すると、各期間内で$k \ll n$ armsの小さなサブセットだけを実験するという制約に直面し、従来のトンプソンサンプリングでは問題となる。
我々は、このいわゆる「武器予算制約」に対処する実験制約(TSEC)に基づく新しいトンプソンサンプリングを提案する。
tsecは、効果階層を優先したベイズ相互作用モデルを使用して、異なる腕の報酬間の相関をモデル化する。
この適合したモデルはトンプソンサンプリングに統合され、実験用の優れたアームのサブセットを共同識別し、これらのアームにリソースを割り当てる。
我々は,arm予算制約を伴う2つの問題に対するtsecの有効性を実証する。
ひとつはWebサイト最適化のシミュレーションで、TSECは業界ベンチマークよりも顕著な改善を示している。
2つ目は、TSECが標準投資戦略よりもより一貫性と富の蓄積を提供する業界ベースの為替取引ファンドにおけるポートフォリオ最適化アプリケーションである。
関連論文リスト
- Improving Portfolio Optimization Results with Bandit Networks [0.0]
非定常環境向けに設計された新しいBanditアルゴリズムを導入・評価する。
まず,Adaptive Discounted Thompson Smpling (ADTS)アルゴリズムを提案する。
そこで我々は,この手法を,CADTSアルゴリズムを導入してポートフォリオ最適化問題に拡張する。
論文 参考訳(メタデータ) (2024-10-05T16:17:31Z) - Improving Thompson Sampling via Information Relaxation for Budgeted Multi-armed Bandits [1.4732811715354452]
我々は、各アームが選択時に異なるリソースを消費する、$Kの武器付きバンディット問題を考える。
我々はトンプソンサンプリングのようにランダム化される一連のアルゴリズムを提案するが、予算制約に関してより慎重に決定を最適化する。
論文 参考訳(メタデータ) (2024-08-28T04:56:06Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - Thompson Exploration with Best Challenger Rule in Best Arm
Identification [66.33448474838342]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。
我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文 参考訳(メタデータ) (2023-10-01T01:37:02Z) - Two-sided Competing Matching Recommendation Markets With Quota and Complementary Preferences Constraints [13.069703665055084]
本稿では,両面のオンラインマッチング市場において,補完的な嗜好とクォータ制約を伴う問題に対処する新しい推奨アルゴリズムを提案する。
混合クォータと相補的な選好制約の存在は、マッチングプロセスの不安定性を引き起こす。
バンドレート学習の枠組みとしてこの問題を定式化し,マルチエージェント多型トンプソンサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-24T18:54:29Z) - Thompson Sampling with Virtual Helping Agents [0.0]
我々は、オンラインのシーケンシャルな意思決定の問題、すなわち、現在の知識を活用して即時パフォーマンスを最大化し、新しい情報を探索して長期的な利益を得るというトレードオフに対処する。
本稿では,マルチアームバンディット問題に対する2つのアルゴリズムを提案し,累積的後悔に関する理論的境界を提供する。
論文 参考訳(メタデータ) (2022-09-16T23:34:44Z) - Batch-Size Independent Regret Bounds for Combinatorial Semi-Bandits with Probabilistically Triggered Arms or Independent Arms [59.8188496313214]
半帯域 (CMAB) について検討し, 半帯域 (CMAB) におけるバッチサイズ (K$) の依存性の低減に着目した。
まず,確率的に引き起こされるアーム(CMAB-T)を用いたCMABの設定に対して,分散を考慮した信頼区間を持つBCUCB-Tアルゴリズムを提案する。
次に,独立アームを用いた非トリガ型CMABの設定に対して,TPVM条件の非トリガ型を利用したSESCBアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-31T13:09:39Z) - Algorithms for Adaptive Experiments that Trade-off Statistical Analysis
with Reward: Combining Uniform Random Assignment and Reward Maximization [50.725191156128645]
トンプソンサンプリングのようなマルチアームバンディットアルゴリズムは適応的な実験を行うのに利用できる。
統計的解析のための一様ランダム化の利点を組み合わせた2つのアルゴリズムを探索する2つのアーム実験のシミュレーションを提案する。
論文 参考訳(メタデータ) (2021-12-15T22:11:58Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z) - A General Theory of the Stochastic Linear Bandit and Its Applications [8.071506311915398]
本稿では,線形バンディット問題に対する一般解析フレームワークとアルゴリズム群を紹介する。
予測における最適化という新たな概念は、OFULの過剰探索問題を減少させるSieeved greedy(SG)と呼ばれる新しいアルゴリズムを生み出します。
SGが理論的に最適であることを示すことに加えて、実験シミュレーションにより、SGはgreedy、OFUL、TSといった既存のベンチマークよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。