論文の概要: Causal bandits with backdoor adjustment on unknown Gaussian DAGs
- arxiv url: http://arxiv.org/abs/2502.02020v2
- Date: Fri, 07 Mar 2025 19:21:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:39:15.762796
- Title: Causal bandits with backdoor adjustment on unknown Gaussian DAGs
- Title(参考訳): 未知ガウスDAGのバックドア調整による因果包帯
- Authors: Yijia Zhao, Qing Zhou,
- Abstract要約: グラフ構造が不明な場合の因果帯域問題について検討する。
連続的に生成された実験データと観測データを用いて各アームのバックドア調整セットを同定する。
最適介入を逐次決定するために,修正された上位信頼境界に基づく新しい帯域幅アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 5.807183284468881
- License:
- Abstract: The causal bandit problem aims to sequentially learn the intervention that maximizes the expectation of a reward variable within a system governed by a causal graph. Most existing approaches assume prior knowledge of the graph structure, or impose unrealistically restrictive conditions on the graph. In this paper, we assume a Gaussian linear directed acyclic graph (DAG) over arms and the reward variable, and study the causal bandit problem when the graph structure is unknown. We identify backdoor adjustment sets for each arm using sequentially generated experimental and observational data during the decision process, which allows us to estimate causal effects and construct upper confidence bounds. By integrating estimates from both data sources, we develop a novel bandit algorithm, based on modified upper confidence bounds, to sequentially determine the optimal intervention. We establish both case-dependent and case-independent upper bounds on the cumulative regret for our algorithm, which improve upon the bounds of the standard multi-armed bandit algorithms. Our empirical study demonstrates its advantage over existing methods with respect to cumulative regret and computation time.
- Abstract(参考訳): 因果バンディット問題は、因果グラフが支配するシステム内の報酬変数の期待を最大化する介入を逐次学習することを目的としている。
既存のアプローチの多くは、グラフ構造の事前知識を前提とするか、あるいはグラフに非現実的に制限的な条件を課す。
本稿では,腕上のガウス線型有向非巡回グラフ(DAG)と報酬変数を仮定し,グラフ構造が不明な場合に因果バンディット問題を考察する。
決定過程中に連続的に生成された実験データと観測データを用いて各アームのバックドア調整セットを同定し、因果効果を推定し、上位信頼境界を構築する。
両データソースから推定値を統合することにより,修正された上位信頼境界に基づく新たな帯域幅アルゴリズムを開発し,最適介入を逐次決定する。
我々は,本アルゴリズムの累積後悔に対して,ケース依存とケース非依存の両方の上限を定め,標準のマルチアームバンディットアルゴリズムのバウンドを改善する。
我々の実証研究は、累積的後悔と計算時間に関して、既存の方法よりも有利であることを示す。
関連論文リスト
- The Minimal Search Space for Conditional Causal Bandits [0.18124328823188351]
因果知識は意思決定問題を支援するのに使える。
本稿では、最適条件介入を含むことが保証される最小限のノードのグラフィカルな特徴について述べる。
次に、この最小のノード群を特定するために、O(|V| + |E|)$の時間複雑性を持つ効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:45:18Z) - Partial Structure Discovery is Sufficient for No-regret Learning in Causal Bandits [7.064432289838905]
現在の研究はしばしば因果グラフが知られていると仮定するが、これは必ずしも先入観として利用できるとは限らない。
我々は、根底にある因果グラフが不明で、潜伏する共同設立者を含むシナリオにおける因果帯域の問題に焦点を当てる。
われわれは、必要で十分な潜在的共同創設者の集合を公式に特徴付け、可能な限り最適な武器が正しく特定されるように検出または学習する必要がある。
論文 参考訳(メタデータ) (2024-11-06T16:59:11Z) - Bridging Rested and Restless Bandits with Graph-Triggering: Rising and Rotting [67.1631453378926]
Graph-Triggered Banditsは、安静と安静のバンディットを一般化するフレームワークである。
本研究は,2種類の単調包帯に焦点をあてる: 立ち上がり, 腕の期待される報酬が増加する, 引き金の数が増える, 回転する, 反対の行動が起こる。
論文 参考訳(メタデータ) (2024-09-09T18:23:07Z) - Asymmetric Graph Error Control with Low Complexity in Causal Bandits [21.812120023339876]
目的は、因果グラフ内のノードに対する最適な介入シーケンスを選択することである。
信号が報酬に寄与するノード間の因果関係を利用することで、介入を最適化する。
論文 参考訳(メタデータ) (2024-08-20T23:37:08Z) - Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Additive Causal Bandits with Unknown Graph [10.575089475850465]
我々は,学習者が因果グラフに関連付けられたランダムな変数の集合に介入することを選択可能な因果帯域設定における行動を選択するアルゴリズムを探索する。
学習者の目標は、観測可能な変数に対するすべての介入の中で、結果変数の期待を最大化する介入を素早く見つけることである。
論文 参考訳(メタデータ) (2023-06-13T15:43:04Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Online Model Selection: a Rested Bandit Formulation [49.69377391589057]
静止したバンディット設定における最善のアーム識別問題を紹介し,解析する。
我々は、この問題の後悔の新しい概念を定義し、ゲームの終わりに最小の期待損失を持つ腕を常に再生するポリシーと比較します。
最近のバンディット文献における既知のモデル選択の試みとは異なり、アルゴリズムは問題の特定の構造を利用して、予想される損失関数の未知のパラメータを学習する。
論文 参考訳(メタデータ) (2020-12-07T08:23:08Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Causal Bandits without prior knowledge using separating sets [3.1000291317725]
カウサル・バンディット(Causal Bandit)は、エージェントがシーケンシャルな意思決定プロセスにおいて最良のアクションを識別しなければならない古典的なバンディット問題の変種である。
これまでの文献で提案されている手法は、完全な因果グラフの正確な事前知識に依存している。
我々は、必ずしも因果知識に依存しない新たな因果バンディットアルゴリズムを定式化する。
論文 参考訳(メタデータ) (2020-09-16T20:08:03Z) - Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。
既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文 参考訳(メタデータ) (2020-06-29T14:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。