論文の概要: Combinatorial Causal Bandits
- arxiv url: http://arxiv.org/abs/2206.01995v1
- Date: Sat, 4 Jun 2022 14:14:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-12 07:48:20.635483
- Title: Combinatorial Causal Bandits
- Title(参考訳): 組み合わせ因果バンディット
- Authors: Shi Feng and Wei Chen
- Abstract要約: 因果的包帯において、学習エージェントは、各ラウンドで最大$K$変数を選択して介入し、ターゲット変数$Y$に対する期待される後悔を最小限にすることを目的としている。
因果モデルの簡潔なパラメトリック表現を用いた二元一般化線形モデル(BGLM)の文脈下で検討する。
マルコフ BGLM に対するアルゴリズム BGLM-OFU を最大推定法に基づいて提案し,O(sqrtTlog T)$ regret, ここでは$T$ が時間地平線となることを示す。
- 参考スコア(独自算出の注目度): 25.012065471684025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In combinatorial causal bandits (CCB), the learning agent chooses at most $K$
variables in each round to intervene, collects feedback from the observed
variables, with the goal of minimizing expected regret on the target variable
$Y$. Different from all prior studies on causal bandits, CCB needs to deal with
exponentially large action space. We study under the context of binary
generalized linear models (BGLMs) with a succinct parametric representation of
the causal models. We present the algorithm BGLM-OFU for Markovian BGLMs (i.e.
no hidden variables) based on the maximum likelihood estimation method, and
show that it achieves $O(\sqrt{T}\log T)$ regret, where $T$ is the time
horizon. For the special case of linear models with hidden variables, we apply
causal inference techniques such as the do-calculus to convert the original
model into a Markovian model, and then show that our BGLM-OFU algorithm and
another algorithm based on the linear regression both solve such linear models
with hidden variables. Our novelty includes (a) considering the combinatorial
intervention action space, (b) considering general causal models including ones
with hidden variables, (c) integrating and adapting techniques from diverse
studies such as generalized linear bandits and online influence maximization,
and (d) not relying on unrealistic assumptions such as knowing the joint
distribution of the parents of $Y$ under all interventions used in some prior
studies.
- Abstract(参考訳): 組み合わせ因果バンドイット(CCB)では、学習エージェントが各ラウンドの最大$K$変数を選択して介入し、観測変数からフィードバックを収集し、目標変数$Y$に対する期待された後悔を最小限に抑える。
因果包帯に関する以前の研究とは異なり、CCBは指数関数的に大きな作用空間を扱う必要がある。
因果モデルの簡潔なパラメトリック表現を伴う二項一般化線形モデル(bglms)の文脈下で研究を行う。
マルコフ的 BGLM に対するアルゴリズム BGLM-OFU (すなわち隠れ変数なし) を最大推定法に基づいて提案し,このアルゴリズムが,時間的地平線が$T$であるような後悔の$O(\sqrt{T}\log T)を達成可能であることを示す。
隠れ変数を持つ線形モデルの特別な場合については、元のモデルをマルコフモデルに変換するのにdo計算のような因果推論手法を適用し、bglm-ofuアルゴリズムと線形回帰に基づく他のアルゴリズムがこれらの線形モデルを隠れ変数で解くことを示す。
私たちのノベルティには
(a) 複合的介入行動空間を考慮したもの
(b)隠された変数を含む一般的な因果モデルを考える。
(c)一般化線形帯域幅やオンライン影響最大化などの多様な研究の技法の統合と適応
(d)先行研究で用いられるすべての介入の下で親のY$の共分散を知るなど非現実的な仮定に頼らないこと。
関連論文リスト
- Online Clustering of Bandits with Misspecified User Models [42.56440072468658]
コンテキスト線形バンディット(Contextual linear bandit)は、与えられた腕の特徴を学習エージェントが各ラウンドで選択し、長期の累積報酬を最大化するオンライン学習問題である。
バンディットのクラスタリング(CB)と呼ばれる一連の研究は、ユーザの好みに対する協調効果を利用しており、古典的な線形バンディットアルゴリズムよりも大幅に改善されている。
本稿では,不特定ユーザモデル (CBMUM) による盗賊のクラスタリングに関する重要な問題を初めて提示する。
モデル誤特定による不正確なユーザの選好推定と誤クラスタリングを両立できる頑健なCBアルゴリズムRCLUMBとRCLUMBを考案した。
論文 参考訳(メタデータ) (2023-10-04T10:40:50Z) - Anytime Model Selection in Linear Bandits [61.97047189786905]
ALEXPは,その後悔に対するM$への依存を指数関数的に改善した。
提案手法は,オンライン学習と高次元統計学の新たな関連性を確立するために,ラッソの時間的一様解析を利用する。
論文 参考訳(メタデータ) (2023-07-24T15:44:30Z) - Combinatorial Causal Bandits without Graph Skeleton [12.615590470530227]
グラフ構造を持たないCCB問題を二元一般因果モデルとBGLM上で検討する。
グラフスケルトンがなくても,BGLMに対する後悔のアルゴリズムを設計し,期待された後悔の程度でO(sqrtTln T)を達成していることを示す。
我々は、重量ギャップの仮定を除去するために、$O(Tfrac23ln T)$ regret の別のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-31T03:45:17Z) - Pure Exploration of Causal Bandits [9.77519365079468]
因果バンディット問題は多腕バンディットと因果推論を統合する。
オンライン学習課題:未知の因果推論分布を持つ因果グラフを与えられた場合、1つの変数に介入するか、介入しないかを選択できる。
3種類の因果モデルに対して、第一のギャップ依存完全適応純粋探索アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-06-16T02:19:37Z) - A Relational Intervention Approach for Unsupervised Dynamics
Generalization in Model-Based Reinforcement Learning [113.75991721607174]
同じ環境に属する2つの推定$hatz_i, hatz_j$の確率を推定するための介入予測モジュールを導入する。
提案手法により推定される$hatZ$は,従来の方法よりも冗長な情報が少ないことを実証的に示す。
論文 参考訳(メタデータ) (2022-06-09T15:01:36Z) - Exponential Family Model-Based Reinforcement Learning via Score Matching [97.31477125728844]
有限水平表層強化学習(RL)のための楽観的モデルベースアルゴリズムSMRLを提案する。
SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。
論文 参考訳(メタデータ) (2021-12-28T15:51:07Z) - Causal Inference Despite Limited Global Confounding via Mixture Models [4.721845865189578]
そのようなモデルの有限$k$-mixtureは、図式的により大きなグラフで表される。
空でないDAGの混合を学習するための最初のアルゴリズムを与える。
論文 参考訳(メタデータ) (2021-12-22T01:04:50Z) - Universal and data-adaptive algorithms for model selection in linear
contextual bandits [52.47796554359261]
モデル選択の最も単純な非自明な例を考える: 単純な多重武装バンディット問題と線形文脈バンディット問題とを区別する。
データ適応的な方法で探索する新しいアルゴリズムを導入し、$mathcalO(dalpha T1- alpha)$という形式の保証を提供する。
我々のアプローチは、いくつかの仮定の下で、ネストされた線形文脈包帯のモデル選択に拡張する。
論文 参考訳(メタデータ) (2021-11-08T18:05:35Z) - Learning Gaussian Mixtures with Generalised Linear Models: Precise
Asymptotics in High-dimensions [79.35722941720734]
多クラス分類問題に対する一般化線形モデルは、現代の機械学習タスクの基本的な構成要素の1つである。
実験的リスク最小化による高次元推定器の精度を実証する。
合成データの範囲を超えて我々の理論をどのように適用できるかを論じる。
論文 参考訳(メタデータ) (2021-06-07T16:53:56Z) - The Generalized Lasso with Nonlinear Observations and Generative Priors [63.541900026673055]
我々は、幅広い測定モデルで満たされるガウス下測度を仮定する。
この結果から, 局所埋込特性を仮定して, 均一回復保証まで拡張できることが示唆された。
論文 参考訳(メタデータ) (2020-06-22T16:43:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。