論文の概要: Computing the Performance of A New Adaptive Sampling Algorithm Based on
The Gittins Index in Experiments with Exponential Rewards
- arxiv url: http://arxiv.org/abs/2301.01107v1
- Date: Tue, 3 Jan 2023 14:04:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 15:15:34.082905
- Title: Computing the Performance of A New Adaptive Sampling Algorithm Based on
The Gittins Index in Experiments with Exponential Rewards
- Title(参考訳): 指数的報酬を用いた実験におけるgittinsインデックスに基づく適応サンプリングアルゴリズムの性能計算
- Authors: James K. He, Sof\'ia S. Villar, and Lida Mavrogonatou
- Abstract要約: Gittins Index(GI)は、最適性と計算効率の目標を同時に達成できるマルチアーメッド帯域問題の解決策である。
本稿では,指数関数的に分散された報酬を用いた実験で利用できるGI規則の修正について述べる。
従来の非適応設計と比較すると,新しいGI修正設計は,学習に匹敵する操作特性を示すが,収益にはかなり優れている。
- 参考スコア(独自算出の注目度): 1.1470070927586016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing experiments often requires balancing between learning about the
true treatment effects and earning from allocating more samples to the superior
treatment. While optimal algorithms for the Multi-Armed Bandit Problem (MABP)
provide allocation policies that optimally balance learning and earning, they
tend to be computationally expensive. The Gittins Index (GI) is a solution to
the MABP that can simultaneously attain optimality and computationally
efficiency goals, and it has been recently used in experiments with Bernoulli
and Gaussian rewards. For the first time, we present a modification of the GI
rule that can be used in experiments with exponentially-distributed rewards. We
report its performance in simulated 2- armed and 3-armed experiments. Compared
to traditional non-adaptive designs, our novel GI modified design shows
operating characteristics comparable in learning (e.g. statistical power) but
substantially better in earning (e.g. direct benefits). This illustrates the
potential that designs using a GI approach to allocate participants have to
improve participant benefits, increase efficiencies, and reduce experimental
costs in adaptive multi-armed experiments with exponential rewards.
- Abstract(参考訳): 実験を設計するには、真の治療効果について学ぶことと、より多くのサンプルを優れた治療に割り当てることのバランスを取る必要がある。
マルチアーメッド帯域問題(MABP)の最適アルゴリズムは、学習と収入の最適なバランスをとる割当ポリシーを提供するが、計算コストが高い傾向にある。
Gittins Index(GI)は、MABPの最適性と計算効率の目標を同時に達成できるソリューションであり、Bernoulli と Gaussian rewards の実験で最近使用されている。
初めて、指数関数的に分散された報酬を持つ実験で使用できるGI規則の修正を提案する。
模擬2武装3武装実験における性能について報告する。
従来の非適応設計と比較すると、新しいGI修正設計は、学習に匹敵する動作特性(統計力など)を示すが、収入(直接利益など)は著しく優れている。
このことは、参加者を割り当てるためのGIアプローチを用いた設計が、参加者の利益を改善し、効率を向上し、指数的な報酬を持つ適応型多武装実験における実験コストを低減させる可能性を示している。
関連論文リスト
- Optimizing Adaptive Experiments: A Unified Approach to Regret
Minimization and Best-Arm Identification [10.66863856524397]
本稿では,実験内性能と実験後結果の両方を考慮に入れた統一モデルを提案する。
次に、文献の正準結果を統一する大集団における最適性能の理論を提供する。
論文 参考訳(メタデータ) (2024-02-16T11:27:48Z) - Adaptive Instrument Design for Indirect Experiments [48.815194906471405]
RCTとは異なり、間接的な実験は条件付き機器変数を利用して治療効果を推定する。
本稿では,データ収集ポリシーを適応的に設計することで,間接実験におけるサンプル効率の向上に向けた最初のステップについて述べる。
我々の主な貢献は、影響関数を利用して最適なデータ収集ポリシーを探索する実用的な計算手順である。
論文 参考訳(メタデータ) (2023-12-05T02:38:04Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - UGAE: A Novel Approach to Non-exponential Discounting [9.358303424584902]
人間の行動と整合する非排他的割引法は、しばしば人間のようなエージェントを作成するのに望ましい。
任意の割引でGAEの利点値の計算を可能にするユニバーサル一般化アドバンテージ推定(UGAE)を提案する。
モンテカルロ法により訓練されたUGAEによる非指数割引エージェントは,モンテカルロ法により訓練された変種よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-02-11T16:41:05Z) - Advancing Model Pruning via Bi-level Optimization [89.88761425199598]
イテレーティブ・マグニチュード・プルーニング(IMP)は,「入賞券」の発見に成功するプルーニング法である
ワンショットプルーニング法が開発されているが、これらのスキームは通常IMPほど勝利のチケットを見つけることができない。
提案手法は,双線形問題構造を持つBLO問題の特別なクラスであることを示す。
論文 参考訳(メタデータ) (2022-10-08T19:19:29Z) - Design Amortization for Bayesian Optimal Experimental Design [70.13948372218849]
予測情報ゲイン(EIG)のバウンダリに関してパラメータ化された変分モデルを最適化する。
実験者が1つの変分モデルを最適化し、潜在的に無限に多くの設計に対してEIGを推定できる新しいニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-07T02:12:34Z) - Sample-Efficient Optimisation with Probabilistic Transformer Surrogates [66.98962321504085]
本稿では,ベイズ最適化における最先端確率変換器の適用可能性について検討する。
トレーニング手順と損失定義から生じる2つの欠点を観察し、ブラックボックス最適化のプロキシとして直接デプロイすることを妨げる。
1)非一様分散点を前処理するBO調整トレーニング,2)予測性能を向上させるために最適な定常点をフィルタする新しい近似後正則整定器トレードオフ精度と入力感度を導入する。
論文 参考訳(メタデータ) (2022-05-27T11:13:17Z) - Test-time Batch Normalization [61.292862024903584]
ディープニューラルネットワークは、トレーニングとテストの間のデータ分散シフトに悩まされることが多い。
トレーニングプロセスにおけるバッチ正規化(BN)を再検討し、テスト時の最適化に有効な2つの重要な洞察を明らかにします。
本稿では,エントロピー損失を最小限に抑えて,テスト中に最適化された新しいBN層設計GpreBNを提案する。
論文 参考訳(メタデータ) (2022-05-20T14:33:39Z) - Challenges in Statistical Analysis of Data Collected by a Bandit
Algorithm: An Empirical Exploration in Applications to Adaptively Randomized
Experiments [11.464963616709671]
多腕バンディットアルゴリズムは、適応的ランダム化実験に有用であると何十年も議論されてきた。
バンディットアルゴリズムThompson Sampling (TS) を用いて, 3つの大学で適応実験を行った。
TSを用いたデータ収集はFalse Positive Rate(FPR)とFalse Negative Rate(FNR)を2倍にすることができることを示す。
論文 参考訳(メタデータ) (2021-03-22T22:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。