論文の概要: Causal Bandits without prior knowledge using separating sets
- arxiv url: http://arxiv.org/abs/2009.07916v2
- Date: Thu, 29 Sep 2022 12:33:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 00:14:11.298034
- Title: Causal Bandits without prior knowledge using separating sets
- Title(参考訳): 分離集合を用いた事前知識のない因果帯域
- Authors: Arnoud A.W.M. de Kroon, Danielle Belgrave, Joris M. Mooij
- Abstract要約: カウサル・バンディット(Causal Bandit)は、エージェントがシーケンシャルな意思決定プロセスにおいて最良のアクションを識別しなければならない古典的なバンディット問題の変種である。
これまでの文献で提案されている手法は、完全な因果グラフの正確な事前知識に依存している。
我々は、必ずしも因果知識に依存しない新たな因果バンディットアルゴリズムを定式化する。
- 参考スコア(独自算出の注目度): 3.1000291317725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Causal Bandit is a variant of the classic Bandit problem where an agent
must identify the best action in a sequential decision-making process, where
the reward distribution of the actions displays a non-trivial dependence
structure that is governed by a causal model. Methods proposed for this problem
thus far in the literature rely on exact prior knowledge of the full causal
graph. We formulate new causal bandit algorithms that no longer necessarily
rely on prior causal knowledge. Instead, they utilize an estimator based on
separating sets, which we can find using simple conditional independence tests
or causal discovery methods. We show that, given a true separating set, for
discrete i.i.d. data, this estimator is unbiased, and has variance which is
upper bounded by that of the sample mean. We develop algorithms based on
Thompson Sampling and UCB for discrete and Gaussian models respectively and
show increased performance on simulation data as well as on a bandit drawing
from real-world protein signaling data.
- Abstract(参考訳): カウサル・バンディット(Causal Bandit)は、エージェントがシーケンシャルな意思決定プロセスにおいて最良の行動を特定する必要がある古典的バンディット問題の変種であり、アクションの報酬分布は因果モデルによって支配される非自明な依存構造を示す。
これまでの文献で提案されている手法は、完全な因果グラフの正確な事前知識に依存している。
我々は,もはや先行する因果知識に依存しない新しい因果バンディットアルゴリズムを定式化する。
代わりに、単純な条件付き独立性テストや因果的発見法を使って見出すことができる、分離集合に基づく推定子を利用する。
離散データに対して真の分離集合が与えられた場合、この推定器は偏りがなく、サンプル平均によって上界となる分散を持つことを示す。
我々はそれぞれ離散モデルとガウスモデルのためのトンプソンサンプリングとUPBに基づくアルゴリズムを開発し、シミュレーションデータと実世界のタンパク質シグナルデータからのバンディット描画の性能向上を示す。
関連論文リスト
- The Minimal Search Space for Conditional Causal Bandits [0.18124328823188351]
因果知識は意思決定問題を支援するのに使える。
本稿では、最適条件介入を含むことが保証される最小限のノードのグラフィカルな特徴について述べる。
次に、この最小のノード群を特定するために、O(|V| + |E|)$の時間複雑性を持つ効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:45:18Z) - Causal bandits with backdoor adjustment on unknown Gaussian DAGs [5.807183284468881]
グラフ構造が不明な場合の因果帯域問題について検討する。
連続的に生成された実験データと観測データを用いて各アームのバックドア調整セットを同定する。
最適介入を逐次決定するために,修正された上位信頼境界に基づく新しい帯域幅アルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-02-04T05:18:35Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Additive Causal Bandits with Unknown Graph [10.575089475850465]
我々は,学習者が因果グラフに関連付けられたランダムな変数の集合に介入することを選択可能な因果帯域設定における行動を選択するアルゴリズムを探索する。
学習者の目標は、観測可能な変数に対するすべての介入の中で、結果変数の期待を最大化する介入を素早く見つけることである。
論文 参考訳(メタデータ) (2023-06-13T15:43:04Z) - Bivariate Causal Discovery using Bayesian Model Selection [11.726586969589]
ベイズ的枠組みに因果仮定を組み込む方法について述べる。
これにより、現実的な仮定でモデルを構築することができます。
その後、幅広いベンチマークデータセットにおいて、従来の手法よりも優れています。
論文 参考訳(メタデータ) (2023-06-05T14:51:05Z) - Optimal Clustering with Bandit Feedback [57.672609011609886]
本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。
これは、NPハード重み付きクラスタリング問題をサブルーチンとして解決する必要性を回避するための、シーケンシャルなテストのための新しい停止規則を含む。
合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は下界と一致し、非適応的ベースラインアルゴリズムよりも大幅に優れることを示す。
論文 参考訳(メタデータ) (2022-02-09T06:05:05Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Universal and data-adaptive algorithms for model selection in linear
contextual bandits [52.47796554359261]
モデル選択の最も単純な非自明な例を考える: 単純な多重武装バンディット問題と線形文脈バンディット問題とを区別する。
データ適応的な方法で探索する新しいアルゴリズムを導入し、$mathcalO(dalpha T1- alpha)$という形式の保証を提供する。
我々のアプローチは、いくつかの仮定の下で、ネストされた線形文脈包帯のモデル選択に拡張する。
論文 参考訳(メタデータ) (2021-11-08T18:05:35Z) - Estimation of Bivariate Structural Causal Models by Variational Gaussian
Process Regression Under Likelihoods Parametrised by Normalising Flows [74.85071867225533]
因果機構は構造因果モデルによって記述できる。
最先端の人工知能の大きな欠点の1つは、説明責任の欠如である。
論文 参考訳(メタデータ) (2021-09-06T14:52:58Z) - Causal Expectation-Maximisation [70.45873402967297]
ポリツリーグラフを特徴とするモデルにおいても因果推論はNPハードであることを示す。
我々は因果EMアルゴリズムを導入し、分類的表現変数のデータから潜伏変数の不確かさを再構築する。
我々は、反事実境界が構造方程式の知識なしにしばしば計算できるというトレンドのアイデアには、目立たずの制限があるように思える。
論文 参考訳(メタデータ) (2020-11-04T10:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。