論文の概要: Pure Exploration of Causal Bandits
- arxiv url: http://arxiv.org/abs/2206.07883v1
- Date: Thu, 16 Jun 2022 02:19:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 14:02:17.445471
- Title: Pure Exploration of Causal Bandits
- Title(参考訳): 因果性バンディットの純粋探索
- Authors: Nuoya Xiong, Wei Chen
- Abstract要約: 因果バンディット問題は多腕バンディットと因果推論を統合する。
オンライン学習課題:未知の因果推論分布を持つ因果グラフを与えられた場合、1つの変数に介入するか、介入しないかを選択できる。
3種類の因果モデルに対して、第一のギャップ依存完全適応純粋探索アルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 9.77519365079468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Causal bandit problem integrates causal inference with multi-armed bandits.
The pure exploration of causal bandits is the following online learning task:
given a causal graph with unknown causal inference distributions, in each round
we can choose to either intervene one variable or do no intervention, and
observe the random outcomes of all random variables, with the goal that using
as few rounds as possible, we can output an intervention that gives the best
(or almost best) expected outcome on the reward variable $Y$ with probability
at least $1-\delta$, where $\delta$ is a given confidence level. We provide
first gap-dependent fully adaptive pure exploration algorithms on three types
of causal models including parallel graphs, general graphs with small number of
backdoor parents, and binary generalized linear models. Our algorithms improve
both prior causal bandit algorithms, which are not adaptive to reward gaps, and
prior adaptive pure exploration algorithms, which do not utilize the special
features of causal bandits.
- Abstract(参考訳): 因果バンディット問題は多腕バンディットと因果推論を統合する。
The pure exploration of causal bandits is the following online learning task: given a causal graph with unknown causal inference distributions, in each round we can choose to either intervene one variable or do no intervention, and observe the random outcomes of all random variables, with the goal that using as few rounds as possible, we can output an intervention that gives the best (or almost best) expected outcome on the reward variable $Y$ with probability at least $1-\delta$, where $\delta$ is a given confidence level.
並列グラフ,少数のバックドアを持つ一般グラフ,バイナリ一般化線形モデルを含む3種類の因果モデルに対して,第1のギャップ依存完全適応純粋探索アルゴリズムを提供する。
提案アルゴリズムは,報酬ギャップに適応しない先行因果バンディットアルゴリズムと,因果バンディットの特別な特徴を利用できない先行適応純粋探索アルゴリズムの両方を改善した。
関連論文リスト
- Variance-Dependent Regret Bounds for Non-stationary Linear Bandits [52.872628573907434]
報酬分布の分散と$B_K$の分散を利用するアルゴリズムを提案する。
Restarted Weighted$textOFUL+$とRestarted$textSAVE+$の2つの新しいアルゴリズムを紹介します。
特に、V_K$が$K$よりはるかに小さい場合、我々のアルゴリズムは、異なる設定下での非定常線形バンドレットの最先端結果よりも優れている。
論文 参考訳(メタデータ) (2024-03-15T23:36:55Z) - Replicability is Asymptotically Free in Multi-armed Bandits [45.729105054410745]
この仕事の動機は、再現可能な機械学習の需要の増加にある。
特に、高い確率で、アルゴリズムのアクション列がデータセットに固有のランダム性の影響を受けないように、複製可能なアルゴリズムを考える。
論文 参考訳(メタデータ) (2024-02-12T03:31:34Z) - Additive Causal Bandits with Unknown Graph [10.575089475850465]
我々は,学習者が因果グラフに関連付けられたランダムな変数の集合に介入することを選択可能な因果帯域設定における行動を選択するアルゴリズムを探索する。
学習者の目標は、観測可能な変数に対するすべての介入の中で、結果変数の期待を最大化する介入を素早く見つけることである。
論文 参考訳(メタデータ) (2023-06-13T15:43:04Z) - Bandit Social Learning: Exploration under Myopic Behavior [58.75758600464338]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - Causal Bandits for Linear Structural Equation Models [58.2875460517691]
本稿では,因果図形モデルにおける最適な介入順序を設計する問題について検討する。
グラフの構造は知られており、ノードは$N$である。
頻繁性(UCBベース)とベイズ的設定に2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-26T16:21:31Z) - Combinatorial Causal Bandits [25.012065471684025]
因果的包帯において、学習エージェントは、各ラウンドで最大$K$変数を選択して介入し、ターゲット変数$Y$に対する期待される後悔を最小限にすることを目的としている。
因果モデルの簡潔なパラメトリック表現を用いた二元一般化線形モデル(BGLM)の文脈下で検討する。
マルコフ BGLM に対するアルゴリズム BGLM-OFU を最大推定法に基づいて提案し,O(sqrtTlog T)$ regret, ここでは$T$ が時間地平線となることを示す。
論文 参考訳(メタデータ) (2022-06-04T14:14:58Z) - Risk-Aware Algorithms for Combinatorial Semi-Bandits [7.716156977428555]
半帯域フィードバック下でのマルチアームバンディット問題について検討する。
本稿では,最悪の場合の報酬のみを考慮したリスク尺度であるCVaR(Conditional Value-at-Risk)の最大化の問題を検討する。
本稿では,バンディットのスーパーアームから得られる報酬のCVaRを最大化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-02T11:29:43Z) - Universal and data-adaptive algorithms for model selection in linear
contextual bandits [52.47796554359261]
モデル選択の最も単純な非自明な例を考える: 単純な多重武装バンディット問題と線形文脈バンディット問題とを区別する。
データ適応的な方法で探索する新しいアルゴリズムを導入し、$mathcalO(dalpha T1- alpha)$という形式の保証を提供する。
我々のアプローチは、いくつかの仮定の下で、ネストされた線形文脈包帯のモデル選択に拡張する。
論文 参考訳(メタデータ) (2021-11-08T18:05:35Z) - Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文 参考訳(メタデータ) (2021-10-25T02:53:24Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。