論文の概要: Odds-Ratio Thompson Sampling to Control for Time-Varying Effect
- arxiv url: http://arxiv.org/abs/2003.01905v1
- Date: Wed, 4 Mar 2020 05:48:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 12:13:33.914783
- Title: Odds-Ratio Thompson Sampling to Control for Time-Varying Effect
- Title(参考訳): オッズ・レイショ・トンプソンサンプリングによる時変効果の制御
- Authors: Sulgi Kim and Kyungmin Kim
- Abstract要約: マルチアームバンディット法は、特にオンラインサービスにおける動的実験に用いられている。
バイナリ報酬のための多くのトンプソンサンプリング方法は、特定のパラメータ化で書かれたロジスティックモデルを使用する。
そこで本研究では,時間変化の影響に対して頑健に機能することが期待される新しい手法"Odds-ratio thonmpson sample"を提案する。
- 参考スコア(独自算出の注目度): 7.547547344228166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-armed bandit methods have been used for dynamic experiments
particularly in online services. Among the methods, thompson sampling is widely
used because it is simple but shows desirable performance. Many thompson
sampling methods for binary rewards use logistic model that is written in a
specific parameterization. In this study, we reparameterize logistic model with
odds ratio parameters. This shows that thompson sampling can be used with
subset of parameters. Based on this finding, we propose a novel method,
"Odds-ratio thompson sampling", which is expected to work robust to
time-varying effect. Use of the proposed method in continuous experiment is
described with discussing a desirable property of the method. In simulation
studies, the novel method works robust to temporal background effect, while the
loss of performance was only marginal in case with no such effect. Finally,
using dataset from real service, we showed that the novel method would gain
greater rewards in practical environment.
- Abstract(参考訳): マルチアームバンディット法は、特にオンラインサービスにおける動的実験に用いられている。
これらの方法のうち、トンプソンサンプリングは単純だが望ましい性能を示すため広く用いられている。
バイナリ報酬のための多くのトンプソンサンプリングメソッドは、特定のパラメータ化で書かれたロジスティックモデルを使用する。
本研究ではオッズ比パラメータを用いてロジスティックモデルを再パラメータ化する。
これはトンプソンサンプリングがパラメータのサブセットで使用できることを示している。
そこで本研究では, 時変効果にロバストに作用することが期待される新しい手法「odds-ratio thompson sampling」を提案する。
提案手法を連続実験に用いた場合,提案手法の望ましい性質について考察した。
シミュレーション研究において、新しい手法は時間的背景効果に頑健に作用するが、性能の損失はそのような効果がない場合に限られる。
最後に,実サービスからのデータセットを用いて,実環境において新たな手法がより大きな報酬を得ることを示した。
関連論文リスト
- Adaptive Experimentation When You Can't Experiment [55.86593195947978]
本稿では,Emphcon founded the pure exploration transductive linear bandit (textttCPET-LB) problem。
オンラインサービスは、ユーザーを特定の治療にインセンティブを与える、適切にランダム化された励ましを利用することができる。
論文 参考訳(メタデータ) (2024-06-15T20:54:48Z) - VITS : Variational Inference Thompson Sampling for contextual bandits [10.028119153832346]
我々は、文脈的帯域幅に対するトンプソンサンプリング(TS)アルゴリズムの変種を導入・解析する。
ガウス変分推論に基づく新しいアルゴリズムであるValational Inference Thompson sample VITSを提案する。
我々は,VITS が線形文脈帯域に対して従来の TS の次元とラウンド数で同じ順序のサブ線形後悔境界を達成することを示す。
論文 参考訳(メタデータ) (2023-07-19T17:53:22Z) - Langevin Thompson Sampling with Logarithmic Communication: Bandits and
Reinforcement Learning [34.4255062106615]
トンプソンサンプリング(TS)は、使用が容易で、経験的性能に訴えるため、シーケンシャルな意思決定に広く用いられている。
バッチ化された$textitLangevin Thompson Sampling$アルゴリズムを提案する。
アルゴリズムは計算効率が高く,MABでは$mathcalO(log T)$,RLでは$mathcalO(sqrtT)$と同じオーダー最適後悔保証を維持している。
論文 参考訳(メタデータ) (2023-06-15T01:16:29Z) - Sample and Predict Your Latent: Modality-free Sequential Disentanglement
via Contrastive Estimation [2.7759072740347017]
外部信号のないコントラスト推定に基づく自己教師付きシーケンシャル・アンタングルメント・フレームワークを提案する。
実際に,データのセマンティックに類似し,異種なビューに対して,統一的で効率的かつ容易にサンプリングできる手法を提案する。
提案手法は,既存の手法と比較して最先端の結果を示す。
論文 参考訳(メタデータ) (2023-05-25T10:50:30Z) - A Provably Efficient Model-Free Posterior Sampling Method for Episodic
Reinforcement Learning [50.910152564914405]
強化学習のための既存の後方サンプリング手法は、モデルベースであるか、線形MDPを超える最悪の理論的保証がないかによって制限される。
本稿では,理論的保証を伴うより一般的な補足的強化学習問題に適用可能な,後部サンプリングのモデルフリーな新しい定式化を提案する。
論文 参考訳(メタデータ) (2022-08-23T12:21:01Z) - Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。
提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文 参考訳(メタデータ) (2022-06-22T17:58:23Z) - Thompson Sampling Efficiently Learns to Control Diffusion Processes [4.254099382808599]
我々は、トンプソンサンプリングアルゴリズムが最適動作を高速に学習し、時間の平方根しか残さず、短時間でシステムを安定化することを示した。
我々の知る限り、これは拡散過程制御問題におけるトンプソンサンプリングの最初の結果である。
我々の理論解析は、ドリフトパラメータの局所幾何学と拡散過程の最適制御を結びつける、ある最適性多様体の特徴づけを含む。
論文 参考訳(メタデータ) (2022-06-20T19:42:49Z) - Jo-SRC: A Contrastive Approach for Combating Noisy Labels [58.867237220886885]
Jo-SRC (Joint Sample Selection and Model Regularization based on Consistency) というノイズロバスト手法を提案する。
具体的には、対照的な学習方法でネットワークをトレーニングする。
各サンプルの2つの異なるビューからの予測は、クリーンまたは分布不足の「可能性」を推定するために使用されます。
論文 参考訳(メタデータ) (2021-03-24T07:26:07Z) - Doubly-Adaptive Thompson Sampling for Multi-Armed and Contextual Bandits [28.504921333436833]
本稿では,トンプソンサンプリングに基づくアルゴリズムの変種について,両腕の真の平均報酬に対する2倍頑健な推定器の項を適応的に再検討する。
提案アルゴリズムは, 半合成実験における最適(最小)後悔率とその経験的評価に適合する。
このアプローチは、適応データ収集とは別に、より多くのバイアス源が存在するコンテキスト的包帯に拡張する。
論文 参考訳(メタデータ) (2021-02-25T22:29:25Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。