論文の概要: Computing the Performance of A New Adaptive Sampling Algorithm Based on
The Gittins Index in Experiments with Exponential Rewards
- arxiv url: http://arxiv.org/abs/2301.01107v1
- Date: Tue, 3 Jan 2023 14:04:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 15:15:34.082905
- Title: Computing the Performance of A New Adaptive Sampling Algorithm Based on
The Gittins Index in Experiments with Exponential Rewards
- Title(参考訳): 指数的報酬を用いた実験におけるgittinsインデックスに基づく適応サンプリングアルゴリズムの性能計算
- Authors: James K. He, Sof\'ia S. Villar, and Lida Mavrogonatou
- Abstract要約: Gittins Index(GI)は、最適性と計算効率の目標を同時に達成できるマルチアーメッド帯域問題の解決策である。
本稿では,指数関数的に分散された報酬を用いた実験で利用できるGI規則の修正について述べる。
従来の非適応設計と比較すると,新しいGI修正設計は,学習に匹敵する操作特性を示すが,収益にはかなり優れている。
- 参考スコア(独自算出の注目度): 1.1470070927586016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing experiments often requires balancing between learning about the
true treatment effects and earning from allocating more samples to the superior
treatment. While optimal algorithms for the Multi-Armed Bandit Problem (MABP)
provide allocation policies that optimally balance learning and earning, they
tend to be computationally expensive. The Gittins Index (GI) is a solution to
the MABP that can simultaneously attain optimality and computationally
efficiency goals, and it has been recently used in experiments with Bernoulli
and Gaussian rewards. For the first time, we present a modification of the GI
rule that can be used in experiments with exponentially-distributed rewards. We
report its performance in simulated 2- armed and 3-armed experiments. Compared
to traditional non-adaptive designs, our novel GI modified design shows
operating characteristics comparable in learning (e.g. statistical power) but
substantially better in earning (e.g. direct benefits). This illustrates the
potential that designs using a GI approach to allocate participants have to
improve participant benefits, increase efficiencies, and reduce experimental
costs in adaptive multi-armed experiments with exponential rewards.
- Abstract(参考訳): 実験を設計するには、真の治療効果について学ぶことと、より多くのサンプルを優れた治療に割り当てることのバランスを取る必要がある。
マルチアーメッド帯域問題(MABP)の最適アルゴリズムは、学習と収入の最適なバランスをとる割当ポリシーを提供するが、計算コストが高い傾向にある。
Gittins Index(GI)は、MABPの最適性と計算効率の目標を同時に達成できるソリューションであり、Bernoulli と Gaussian rewards の実験で最近使用されている。
初めて、指数関数的に分散された報酬を持つ実験で使用できるGI規則の修正を提案する。
模擬2武装3武装実験における性能について報告する。
従来の非適応設計と比較すると、新しいGI修正設計は、学習に匹敵する動作特性(統計力など)を示すが、収入(直接利益など)は著しく優れている。
このことは、参加者を割り当てるためのGIアプローチを用いた設計が、参加者の利益を改善し、効率を向上し、指数的な報酬を持つ適応型多武装実験における実験コストを低減させる可能性を示している。
関連論文リスト
- Bayesian Experimental Design via Contrastive Diffusions [2.2186678387006435]
実験設計(BOED)は、一連の実験の実行コストを削減する強力なツールである。
コスト効率の良い後続分布を導入し,EIGコントラストへのトラクタアクセスを提供する。
生成モデルをBOEDフレームワークに組み込むことで、以前は非現実的であったシナリオにおいて、そのスコープと使用範囲を広げる。
論文 参考訳(メタデータ) (2024-10-15T17:53:07Z) - Optimizing Adaptive Experiments: A Unified Approach to Regret Minimization and Best-Arm Identification [9.030753181146176]
実験内性能と実験後の成果を同時に考慮した統一モデルを提案する。
実験期間の大幅な短縮は、実験内および実験後の後悔の両方に最小限の影響を伴って達成できることが示されている。
論文 参考訳(メタデータ) (2024-02-16T11:27:48Z) - Adaptive Instrument Design for Indirect Experiments [48.815194906471405]
RCTとは異なり、間接的な実験は条件付き機器変数を利用して治療効果を推定する。
本稿では,データ収集ポリシーを適応的に設計することで,間接実験におけるサンプル効率の向上に向けた最初のステップについて述べる。
我々の主な貢献は、影響関数を利用して最適なデータ収集ポリシーを探索する実用的な計算手順である。
論文 参考訳(メタデータ) (2023-12-05T02:38:04Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - Advancing Model Pruning via Bi-level Optimization [89.88761425199598]
イテレーティブ・マグニチュード・プルーニング(IMP)は,「入賞券」の発見に成功するプルーニング法である
ワンショットプルーニング法が開発されているが、これらのスキームは通常IMPほど勝利のチケットを見つけることができない。
提案手法は,双線形問題構造を持つBLO問題の特別なクラスであることを示す。
論文 参考訳(メタデータ) (2022-10-08T19:19:29Z) - Design Amortization for Bayesian Optimal Experimental Design [70.13948372218849]
予測情報ゲイン(EIG)のバウンダリに関してパラメータ化された変分モデルを最適化する。
実験者が1つの変分モデルを最適化し、潜在的に無限に多くの設計に対してEIGを推定できる新しいニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-07T02:12:34Z) - Sample-Efficient Optimisation with Probabilistic Transformer Surrogates [66.98962321504085]
本稿では,ベイズ最適化における最先端確率変換器の適用可能性について検討する。
トレーニング手順と損失定義から生じる2つの欠点を観察し、ブラックボックス最適化のプロキシとして直接デプロイすることを妨げる。
1)非一様分散点を前処理するBO調整トレーニング,2)予測性能を向上させるために最適な定常点をフィルタする新しい近似後正則整定器トレードオフ精度と入力感度を導入する。
論文 参考訳(メタデータ) (2022-05-27T11:13:17Z) - Test-time Batch Normalization [61.292862024903584]
ディープニューラルネットワークは、トレーニングとテストの間のデータ分散シフトに悩まされることが多い。
トレーニングプロセスにおけるバッチ正規化(BN)を再検討し、テスト時の最適化に有効な2つの重要な洞察を明らかにします。
本稿では,エントロピー損失を最小限に抑えて,テスト中に最適化された新しいBN層設計GpreBNを提案する。
論文 参考訳(メタデータ) (2022-05-20T14:33:39Z) - Challenges in Statistical Analysis of Data Collected by a Bandit
Algorithm: An Empirical Exploration in Applications to Adaptively Randomized
Experiments [11.464963616709671]
多腕バンディットアルゴリズムは、適応的ランダム化実験に有用であると何十年も議論されてきた。
バンディットアルゴリズムThompson Sampling (TS) を用いて, 3つの大学で適応実験を行った。
TSを用いたデータ収集はFalse Positive Rate(FPR)とFalse Negative Rate(FNR)を2倍にすることができることを示す。
論文 参考訳(メタデータ) (2021-03-22T22:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。