論文の概要: Budgeted and Non-budgeted Causal Bandits
- arxiv url: http://arxiv.org/abs/2012.07058v1
- Date: Sun, 13 Dec 2020 13:31:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 16:47:33.568169
- Title: Budgeted and Non-budgeted Causal Bandits
- Title(参考訳): 予算及び非予算のカウンサルバンド
- Authors: Vineet Nair, Vishakha Patil, Gaurav Sinha
- Abstract要約: 因果グラフで良い介入を学ぶことは、サイド情報を持つマルチアームのバンディット問題としてモデル化することができる。
介入コストに基づいて観察と介入を最適にトレードオフする単純な後悔を最小限に抑えるアルゴリズムを提案する。
本研究は,現在の文献で最もよく知られた境界と比較し,実験的に検証した。
- 参考スコア(独自算出の注目度): 2.9005223064604078
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Learning good interventions in a causal graph can be modelled as a stochastic
multi-armed bandit problem with side-information. First, we study this problem
when interventions are more expensive than observations and a budget is
specified. If there are no backdoor paths from an intervenable node to the
reward node then we propose an algorithm to minimize simple regret that
optimally trades-off observations and interventions based on the cost of
intervention. We also propose an algorithm that accounts for the cost of
interventions, utilizes causal side-information, and minimizes the expected
cumulative regret without exceeding the budget. Our cumulative-regret
minimization algorithm performs better than standard algorithms that do not
take side-information into account. Finally, we study the problem of learning
best interventions without budget constraint in general graphs and give an
algorithm that achieves constant expected cumulative regret in terms of the
instance parameters when the parent distribution of the reward variable for
each intervention is known. Our results are experimentally validated and
compared to the best-known bounds in the current literature.
- Abstract(参考訳): 因果グラフで良い介入を学ぶことは、サイド情報を持つ確率的多腕バンディット問題としてモデル化することができる。
まず、介入が観察よりも高価で予算が特定されている場合に、この問題を研究する。
インターベンタノードから報奨ノードへのバックドアパスが存在しない場合は、介入コストに基づいて最適な観察と介入をトレードオフする単純な後悔を最小限に抑えるアルゴリズムを提案する。
また,介入費用を考慮し,因果情報を活用し,予算を超過することなく累積的後悔を最小限に抑えるアルゴリズムを提案する。
我々の累積回帰最小化アルゴリズムは、サイドインフォメーションを考慮しない標準アルゴリズムよりも優れている。
最後に,一般的なグラフにおいて予算制約を伴わずに最善の介入を学習する問題について検討し,各介入に対する報酬変数の親分布が分かっている場合,インスタンスパラメータの観点で一定の期待累積後悔を達成するアルゴリズムを与える。
本研究は,現在の文献で最もよく知られた境界と比較し,実験的に検証した。
関連論文リスト
- Confounded Budgeted Causal Bandits [28.199741662190203]
基礎となる因果グラフをモデルとした環境における「良い」介入の学習問題について検討する。
良い介入は報酬を最大化する介入を指す。
一般因果グラフにおける累積後悔を最小限に抑えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-15T10:26:13Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Adaptivity Complexity for Causal Graph Discovery [7.424262881242935]
本稿では,アルゴリズム設計者が合計$r$連続ラウンドで因果グラフを復元する,$r$適応性の問題を考察する。
我々は、検証数に関して$O(minr,log n cdot n1/minr,log n)$近似を達成する$r$適応アルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-06-09T09:49:16Z) - Stochastic Direct Search Method for Blind Resource Allocation [6.574808513848414]
線形制約付きおよび微分自由最適化のための直接探索法(パターン探索とも呼ばれる)について検討する。
直接探索法は決定論的かつ制約のない場合において有限の後悔を達成できることを示す。
そこで本研究では,T2/3$のオーダを後悔させるようなダイレクトサーチの簡単な拡張を提案する。
論文 参考訳(メタデータ) (2022-10-11T07:40:45Z) - Quantization for decentralized learning under subspace constraints [61.59416703323886]
エージェントがサブスペース制約を最小化するために個々のコスト関数を持つ分散最適化問題を考察する。
本稿では,エージェントが確率化量子化器を用いて推定値を圧縮する適応分散型戦略を提案し,検討する。
この分析は、量子化ノイズのいくつかの一般的な条件下では、平均二乗誤差と平均ビットレートの両方で戦略が安定であることを示している。
論文 参考訳(メタデータ) (2022-09-16T09:38:38Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - Causal Bandits on General Graphs [1.4502611532302039]
本稿では、因果グラフのみによって指定された因果ベイズネットワーク(CBN)における最良の介入を決定する問題について検討する。
本稿では,原子間干渉や観測不可能な変数を含む半マルコフ因果グラフを入力として用いた,簡単な後悔最小化アルゴリズムを提案する。
この結果から,提案アルゴリズムの単純後悔保証は,因果グラフのより微妙な構造的制約を考慮すれば改善できることがわかった。
論文 参考訳(メタデータ) (2021-07-06T17:29:45Z) - Stochastic Hard Thresholding Algorithms for AUC Maximization [49.00683387735522]
分散分類におけるAUCのためのハードしきい値決定アルゴリズムを開発した。
提案アルゴリズムの有効性と有効性を示す実験を行った。
論文 参考訳(メタデータ) (2020-11-04T16:49:29Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Excursion Search for Constrained Bayesian Optimization under a Limited
Budget of Failures [62.41541049302712]
本稿では,所定の予算の失敗の関数として探索において許容されるリスクの量を制御する制御理論に基づく新しい意思決定者を提案する。
本アルゴリズムは, 種々の最適化実験において, 故障予算をより効率的に利用し, 一般に, 最先端の手法よりも, 後悔度を低くする。
論文 参考訳(メタデータ) (2020-05-15T09:54:09Z) - Budget-Constrained Bandits over General Cost and Reward Distributions [32.63624728528415]
我々は,各アームがランダムなコストを発生させ,その見返りにランダムな報酬を与える,予算制約付きバンディット問題を考える。
ある$gamma > 0$ に対して位数 $(2+gamma)$ のモーメントが存在するならば、$O(log B)$ regret は予算 $B>0$ に対して達成可能である。
論文 参考訳(メタデータ) (2020-02-29T23:50:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。