論文の概要: Causal Bandits with Unknown Graph Structure
- arxiv url: http://arxiv.org/abs/2106.02988v1
- Date: Sat, 5 Jun 2021 23:41:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:35:37.075087
- Title: Causal Bandits with Unknown Graph Structure
- Title(参考訳): 未知グラフ構造を持つ因果帯域
- Authors: Yangyi Lu, Amirhossein Meisami, Ambuj Tewari
- Abstract要約: 因果グラフを知らずに新たな因果バンディットアルゴリズムを開発する。
我々のアルゴリズムは、因果樹、因果樹、および一般的な因果グラフに対してうまく機能する。
- 参考スコア(独自算出の注目度): 24.58691421788476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In causal bandit problems, the action set consists of interventions on
variables of a causal graph. Several researchers have recently studied such
bandit problems and pointed out their practical applications. However, all
existing works rely on a restrictive and impractical assumption that the
learner is given full knowledge of the causal graph structure upfront. In this
paper, we develop novel causal bandit algorithms without knowing the causal
graph. Our algorithms work well for causal trees, causal forests and a general
class of causal graphs. The regret guarantees of our algorithms greatly improve
upon those of standard multi-armed bandit (MAB) algorithms under mild
conditions. Lastly, we prove our mild conditions are necessary: without them
one cannot do better than standard MAB bandit algorithms.
- Abstract(参考訳): 因果的バンディット問題において、アクション集合は因果グラフの変数に対する介入からなる。
何人かの研究者が最近そのような盗賊問題を研究し、その実践的応用を指摘した。
しかしながら、既存のすべての著作物は、学習者が前もって因果グラフ構造に関する完全な知識を与えられるという制限的かつ非現実的な仮定に依存している。
本稿では,因果グラフを知らずに新しい因果バンディットアルゴリズムを開発した。
我々のアルゴリズムは、因果樹、因果樹、および一般的な因果グラフに対してうまく機能する。
我々のアルゴリズムの後悔の保証は、穏やかな条件下での標準的なマルチアーム・バンディット(MAB)アルゴリズムよりも大幅に改善される。
最後に、我々の穏やかな条件が必須であることを示す:それらなしでは、標準的なMABバンディットアルゴリズムより優れた処理はできない。
関連論文リスト
- Bridging Rested and Restless Bandits with Graph-Triggering: Rising and Rotting [67.1631453378926]
Graph-Triggered Banditsは、安静と安静のバンディットを一般化するフレームワークである。
本研究は,2種類の単調包帯に焦点をあてる: 立ち上がり, 腕の期待される報酬が増加する, 引き金の数が増える, 回転する, 反対の行動が起こる。
論文 参考訳(メタデータ) (2024-09-09T18:23:07Z) - Zero-Inflated Bandits [11.60342504007264]
ゼロ膨らんだ帯状地について検討し、報酬をゼロ膨らんだ分布と呼ばれる古典的な半パラメトリック分布としてモデル化する。
一般報奨仮定と準ガウス報奨を含む文脈一般化線形報奨を併用した多腕包帯の両面における後悔境界を導出する。
多くの設定において、我々のアルゴリズムの後悔率は、最小限の最適か最先端のどちらかである。
論文 参考訳(メタデータ) (2023-12-25T03:13:21Z) - Bandit Social Learning: Exploration under Myopic Behavior [58.75758600464338]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - Causal Bandits without Graph Learning [28.021500949026766]
我々は,原子間干渉を用いた報酬ノードの親ノード探索のための効率的なアルゴリズムを開発した。
報奨ノードが複数の親を持つ場合にアルゴリズムを拡張します。
論文 参考訳(メタデータ) (2023-01-26T20:27:14Z) - Pure Exploration of Causal Bandits [9.77519365079468]
因果バンディット問題は多腕バンディットと因果推論を統合する。
オンライン学習課題:未知の因果推論分布を持つ因果グラフを与えられた場合、1つの変数に介入するか、介入しないかを選択できる。
3種類の因果モデルに対して、第一のギャップ依存完全適応純粋探索アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-06-16T02:19:37Z) - Optimal Gradient-based Algorithms for Non-concave Bandit Optimization [76.57464214864756]
この研究は、未知の報酬関数が非可逆であるようなバンドイット問題の大群を考察する。
我々のアルゴリズムは、非常に一般化されたゼロ階最適化のパラダイムに基づいている。
標準的な楽観的アルゴリズムは次元因子によって準最適であることを示す。
論文 参考訳(メタデータ) (2021-07-09T16:04:24Z) - Causal Bandits on General Graphs [1.4502611532302039]
本稿では、因果グラフのみによって指定された因果ベイズネットワーク(CBN)における最良の介入を決定する問題について検討する。
本稿では,原子間干渉や観測不可能な変数を含む半マルコフ因果グラフを入力として用いた,簡単な後悔最小化アルゴリズムを提案する。
この結果から,提案アルゴリズムの単純後悔保証は,因果グラフのより微妙な構造的制約を考慮すれば改善できることがわかった。
論文 参考訳(メタデータ) (2021-07-06T17:29:45Z) - Upper Confidence Bounds for Combining Stochastic Bandits [52.10197476419621]
バンディットアルゴリズムを結合する簡単な手法を提案する。
私たちのアプローチは、個々のbanditアルゴリズムのそれぞれを、より高いレベルのn$-armed bandit問題のアームとして扱う"meta-ucb"手順に基づいています。
論文 参考訳(メタデータ) (2020-12-24T05:36:29Z) - Approximation Theory Based Methods for RKHS Bandits [9.391375268580806]
RKHSバンディット問題は、ノイズフィードバックを伴う非線形関数のオンライン最適化問題である。
逆 RKHS バンディット問題に対する一般アルゴリズムは存在しない。
本稿では, RKHSバンドイット問題に対する効率的なアルゴリズムと, RKHSバンドイット問題に対する最初の一般アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-23T05:14:21Z) - Corralling Stochastic Bandit Algorithms [54.10645564702416]
相関アルゴリズムの後悔は、最も報酬の高い腕を含む最高のアルゴリズムの後悔よりも悪くはないことを示す。
最高報酬と他の報酬の差は、最高報酬と他の報酬の差に依存することを示す。
論文 参考訳(メタデータ) (2020-06-16T15:33:12Z) - A Novel Confidence-Based Algorithm for Structured Bandits [129.30402124516507]
両腕の報酬が他の腕の報酬と相関する可能性のある有限腕包帯について検討した。
本稿では、与えられた構造を利用して、真のバンディット問題のパラメータに対する信頼セットを構築する新しい位相アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-23T19:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。