論文の概要: Adaptive Combinatorial Allocation
- arxiv url: http://arxiv.org/abs/2011.02330v1
- Date: Wed, 4 Nov 2020 15:02:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 22:50:27.539118
- Title: Adaptive Combinatorial Allocation
- Title(参考訳): アダプティブ・コンビネーション・アロケーション
- Authors: Maximilian Kasy and Alexander Teytelboym
- Abstract要約: 割り当てが繰り返し選択され、戻り値は不明だが学習可能であり、決定には制約が伴う。
我々のモデルは、複雑な制約があっても、両側のマッチングと一方のマッチングをカバーしています。
- 参考スコア(独自算出の注目度): 77.86290991564829
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We consider settings where an allocation has to be chosen repeatedly, returns
are unknown but can be learned, and decisions are subject to constraints. Our
model covers two-sided and one-sided matching, even with complex constraints.
We propose an approach based on Thompson sampling. Our main result is a
prior-independent finite-sample bound on the expected regret for this
algorithm. Although the number of allocations grows exponentially in the number
of participants, the bound does not depend on this number. We illustrate the
performance of our algorithm using data on refugee resettlement in the United
States.
- Abstract(参考訳): 我々は、アロケーションが繰り返し選択され、リターンが未知であるが学習でき、決定が制約の対象となるような設定を検討する。
我々のモデルは、複雑な制約があっても、2面と1面のマッチングをカバーしている。
我々はトンプソンサンプリングに基づくアプローチを提案する。
我々の主な結果は、このアルゴリズムの期待された後悔に縛られる事前独立有限サンプルである。
割り当ての数は参加者数で指数関数的に増加するが、境界はこの数に依存しない。
米国における難民再定住データを用いて,本アルゴリズムの性能について述べる。
関連論文リスト
- Sample size planning for conditional counterfactual mean estimation with
a K-armed randomized experiment [0.0]
K$のランダム化実験で十分なサンプルサイズを決定する方法を示す。
政策木を用いてサブグループを学習し、公開可能な大規模なランダム化実験データセットにおいて、我々の名目上の保証を評価する。
論文 参考訳(メタデータ) (2024-03-06T20:37:29Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z) - Root-finding Approaches for Computing Conformal Prediction Set [18.405645120971496]
共形予測は、以前の同一分布および交換可能な観測に基づいて、特徴ベクトルの未観測応答に対する信頼領域を構築する。
我々は,共形予測集合が古典的ルートフィンディングソフトウェアによって効率的に近似できる区間であるという事実を活用する。
論文 参考訳(メタデータ) (2021-04-14T06:41:12Z) - Batched Neural Bandits [107.5072688105936]
BatchNeuralUCBはニューラルネットワークと楽観性を組み合わせ、探索と探索のトレードオフに対処する。
BatchNeuralUCBは、完全なシーケンシャルバージョンと同じ後悔を達成しつつ、ポリシー更新の数を大幅に減らしています。
論文 参考訳(メタデータ) (2021-02-25T17:36:44Z) - Regret Bound Balancing and Elimination for Model Selection in Bandits
and RL [34.15978290083909]
バンディットおよび強化学習問題におけるアルゴリズムの簡易モデル選択手法を提案する。
我々は、このアプローチの総後悔は、最も有効な候補者の後悔の回数が乗算的要因であることを証明します。
線形バンディットのモデル選択における最近の取り組みとは違って,我々のアプローチは,敵の環境によってコンテキスト情報が生成されるケースをカバーできるほど多用途である。
論文 参考訳(メタデータ) (2020-12-24T00:53:42Z) - Quantile Multi-Armed Bandits: Optimal Best-Arm Identification and a
Differentially Private Scheme [16.1694012177079]
我々は,多腕バンディットにおける最高の武器識別問題,潜在的に私的な報酬について検討する。
ゴールは、固定された所定のレベルで、最も高い定量値を持つ腕を特定することである。
このアルゴリズムは$delta$-PACであり,サンプルの複雑さを特徴付ける。
論文 参考訳(メタデータ) (2020-06-11T20:23:43Z) - The Price of Incentivizing Exploration: A Characterization via Thompson
Sampling and Sample Complexity [83.81297078039836]
インセンティブ付き探索(Incentivized Exploring)は、武器の選択を自給自足エージェントによって制御するマルチアーム・バンディットのバージョンである。
我々は、インセンティブの価格に焦点を合わせ、インセンティブの適合性のために、広く解釈された、パフォーマンスの喪失が引き起こされる。
論文 参考訳(メタデータ) (2020-02-03T04:58:51Z) - Optimal Clustering from Noisy Binary Feedback [75.17453757892152]
本稿では,二元的ユーザフィードバックから一組のアイテムをクラスタリングする問題について検討する。
最小クラスタ回復誤差率のアルゴリズムを考案する。
適応選択のために,情報理論的誤差下界の導出にインスパイアされたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2019-10-14T09:18:26Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。