論文の概要: Policy Choice and Best Arm Identification: Comments on "Adaptive
Treatment Assignment in Experiments for Policy Choice"
- arxiv url: http://arxiv.org/abs/2109.08229v1
- Date: Thu, 16 Sep 2021 21:27:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 14:28:22.582890
- Title: Policy Choice and Best Arm Identification: Comments on "Adaptive
Treatment Assignment in Experiments for Policy Choice"
- Title(参考訳): 政策選択とベストアーム識別:「政策選択実験における適応的治療指示」に対するコメント
- Authors: Kaito Ariu and Masahiro Kato and Junpei Komiyama and Kenichiro McAlinn
- Abstract要約: 本稿では、政策選択問題を「ベストアーム識別」問題(BAI)問題と同一の方法で枠付ける方法について論じる。
論文を結びつけることで、Kasy と Sautmann (2021) で取り組んだポリシー選択アルゴリズムの最適性は長年の未解決問題である。
- 参考スコア(独自算出の注目度): 10.057340525005005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The purpose of this paper is to connect the "policy choice" problem, proposed
in Kasy and Sautmann (2021), to the frontiers of the bandit literature in
machine learning. We discuss how the policy choice problem can be framed in a
way such that it is identical to what is called the "best arm identification"
(BAI) problem. By connecting the literature, we identify that the asymptotic
optimality of policy choice algorithms tackled in Kasy and Sautmann (2021) is a
long-standing open question in the literature. Unfortunately, this connection
highlights several major issues with the main theorem. In particular, we show
that Theorem 1 in Kasy and Sautmann (2021) is false. We find that the proofs of
statements (1) and (2) of Theorem 1 are incorrect, though the statements
themselves may be true, though non-trivial to fix. Statement (3), and its
proof, on the other hand, is false, which we show by utilizing existing
theoretical results in the bandit literature. As this question is critically
important, garnering much interest in the last decade within the bandit
community, we provide a review of recent developments in the BAI literature. We
hope this serves to highlight the relevance to economic problems and stimulate
methodological and theoretical developments in the econometric community.
- Abstract(参考訳): 本研究の目的は,kasy and sautmann (2021) で提唱された「政治選択」問題と,機械学習におけるバンディット文学のフロンティアを結びつけることである。
本稿では,「最良の腕識別(bai)問題」と呼ばれる問題と同一であるように,政策選択問題をどのようにフレーム化できるかについて議論する。
論文の連結により、カシーとソートマン(2021年)が取り組んだ政策選択アルゴリズムの漸近最適性は、文学における長年のオープンな問題である。
残念ながら、この関係は主定理のいくつかの主要な問題を浮き彫りにしている。
特に、Kasy and Sautmann (2021) における Theorem 1 は偽であることを示す。
定理 1 のステートメント (1) と (2) の証明は誤りであるが、ステートメント自体が真である可能性はあるが、修正するのは非自明である。
一方, 論文(3)とその証明は誤りであり, バンディット文学における既存の理論的結果を活用して示す。
この問題は重要であり、バンディットコミュニティにおける過去10年間に多大な関心を集めているため、BAI文献の最近の発展についてレビューする。
このことが経済問題との関連を強調し、計量社会における方法論的・理論的発展を刺激することを願っている。
関連論文リスト
- Causal Analysis of Shapley Values: Conditional vs. Marginal [0.0]
シェープ値を計算するための2つの最も一般的なアプローチ、条件付きおよび限界付きアプローチは、異なる結果をもたらす。
本研究は,各手法において,欠落した因果情報に対処するための暗黙の仮定から,その相違が生じることを示す。
これは [1] の以前の研究とともに、条件付きアプローチよりも限界アプローチの方が好ましいという結論に導かれる。
論文 参考訳(メタデータ) (2024-09-10T02:07:39Z) - Proving Theorems Recursively [80.42431358105482]
本稿では、定理をレベル・バイ・レベルで証明するPOETRYを提案する。
従来のステップバイステップメソッドとは異なり、POETRYは各レベルで証明のスケッチを検索する。
また,POETRYが検出した最大証明長は10~26。
論文 参考訳(メタデータ) (2024-05-23T10:35:08Z) - Thompson Exploration with Best Challenger Rule in Best Arm
Identification [66.33448474838342]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。
我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文 参考訳(メタデータ) (2023-10-01T01:37:02Z) - No contextual advantage in non-paradoxical scenarios of two state vector
formalism [4.291616110077346]
本稿では,2つの状態ベクトル形式(TSVF)の量子文脈性の推定への応用について考察する。
選択前のシナリオと選択後のシナリオをパラドックス的シナリオと非パラドックス的シナリオに分類する。
これらは文脈性の適切なテストを構成するものではないと我々は主張する。
論文 参考訳(メタデータ) (2022-06-06T15:21:39Z) - Convergence of Stochastic Approximation via Martingale and Converse
Lyapunov Methods [0.0]
我々は、近似アルゴリズムの収束を証明するための非常に一般的なフレームワークを開発するために、Gladyshev (1965) で最初に提案されたアイデアに基づいて構築する。
これらのアイデアはマーチンゲール法に基づいており、ODE法に基づく収束証明よりもいくつかの点で単純である。
論文 参考訳(メタデータ) (2022-05-03T04:51:17Z) - Best Arm Identification under Additive Transfer Bandits [49.69203462561861]
提案手法は, 未知であるにもかかわらず, ソースとターゲットMABインスタンスの間には, 付加的な関係があることが知られている。
本稿では,LUCBスタイルのアルゴリズムを理論的に解析し,高い確率で$epsilon$-optimal target armを同定する。
論文 参考訳(メタデータ) (2021-12-08T02:20:18Z) - On the Existence of the Adversarial Bayes Classifier (Extended Version) [56.71935195968849]
この写本は、NeurIPS 2021で出版された論文『EmphOn the Existence of the Adrial Bayesversa』の拡張と修正版である。
論文 参考訳(メタデータ) (2021-12-03T03:31:08Z) - Adversarial Robustness with Semi-Infinite Constrained Learning [177.42714838799924]
入力に対する深い学習は、安全クリティカルなドメインでの使用に関して深刻な疑問を提起している。
本稿では,この問題を緩和するために,Langevin Monte Carlo のハイブリッドトレーニング手法を提案する。
当社のアプローチは、最先端のパフォーマンスと堅牢性の間のトレードオフを軽減することができることを示す。
論文 参考訳(メタデータ) (2021-10-29T13:30:42Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。