論文の概要: Hierarchical Causal Bandit
- arxiv url: http://arxiv.org/abs/2103.04215v1
- Date: Sun, 7 Mar 2021 00:04:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 15:57:51.673218
- Title: Hierarchical Causal Bandit
- Title(参考訳): Hierarchical Causal Bandit
- Authors: Ruiyang Song, Stefano Rini, Kuang Xu
- Abstract要約: Causal Banditは、エージェントが変数の因果ネットワークで順次実験する学習モデルである。
本研究では,階層型因果バンディットモデルを,従属変数による一般因果バンディット理解への有効な経路として紹介する。
- 参考スコア(独自算出の注目度): 12.676356746752894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Causal bandit is a nascent learning model where an agent sequentially
experiments in a causal network of variables, in order to identify the
reward-maximizing intervention. Despite the model's wide applicability,
existing analytical results are largely restricted to a parallel bandit version
where all variables are mutually independent. We introduce in this work the
hierarchical causal bandit model as a viable path towards understanding general
causal bandits with dependent variables. The core idea is to incorporate a
contextual variable that captures the interaction among all variables with
direct effects. Using this hierarchical framework, we derive sharp insights on
algorithmic design in causal bandits with dependent arms and obtain nearly
matching regret bounds in the case of a binary context.
- Abstract(参考訳): 因果バンディット(英: Causal Bandit)は、エージェントが変数の因果ネットワークで連続的に実験し、報酬の最大化介入を特定する、創発的な学習モデルである。
モデルの適用性は広いが、既存の分析結果は、全ての変数が互いに独立な並列バンディットバージョンに大きく制限されている。
本研究では,階層型因果バンディットモデルを,従属変数による一般因果バンディット理解への有効な経路として紹介する。
コアのアイデアは、直接的な効果を持つすべての変数間の相互作用をキャプチャするコンテキスト変数を組み込むことです。
この階層的枠組みを用いることで、因果的包帯と従属腕のアルゴリズム設計の鋭い洞察を導き、二項文脈の場合、ほぼ一致する後悔境界を得る。
関連論文リスト
- Bridging Rested and Restless Bandits with Graph-Triggering: Rising and Rotting [67.1631453378926]
Graph-Triggered Banditsは、安静と安静のバンディットを一般化するフレームワークである。
本研究は,2種類の単調包帯に焦点をあてる: 立ち上がり, 腕の期待される報酬が増加する, 引き金の数が増える, 回転する, 反対の行動が起こる。
論文 参考訳(メタデータ) (2024-09-09T18:23:07Z) - Bandit Social Learning: Exploration under Myopic Behavior [58.75758600464338]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - Counterfactual Reasoning for Out-of-distribution Multimodal Sentiment
Analysis [56.84237932819403]
本稿では,OODの高次一般化に対するテキストモダリティの悪影響を推定・緩和することを目的とする。
そこで本研究では,マルチモーダル感情分析のためのモデルに依存しない反現実的フレームワークを考案した。
論文 参考訳(メタデータ) (2022-07-24T03:57:40Z) - Pure Exploration of Causal Bandits [9.77519365079468]
因果バンディット問題は多腕バンディットと因果推論を統合する。
オンライン学習課題:未知の因果推論分布を持つ因果グラフを与えられた場合、1つの変数に介入するか、介入しないかを選択できる。
3種類の因果モデルに対して、第一のギャップ依存完全適応純粋探索アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-06-16T02:19:37Z) - Deep Hierarchy in Bandits [51.22833900944146]
行動の報酬は、しばしば相関する。
統計的効率を最大化するためには,これらの相関を学習に活用することが重要である。
平均作用報酬の相関が階層的ベイズモデルで表されるこの問題のバンディット変法を定式化する。
論文 参考訳(メタデータ) (2022-02-03T08:15:53Z) - Systematic Evaluation of Causal Discovery in Visual Model Based
Reinforcement Learning [76.00395335702572]
AIと因果関係の中心的な目標は、抽象表現と因果構造を共同で発見することである。
因果誘導を研究するための既存の環境は、複雑なタスク固有の因果グラフを持つため、この目的には適していない。
本研究の目的は,高次変数の学習表現と因果構造の研究を促進することである。
論文 参考訳(メタデータ) (2021-07-02T05:44:56Z) - Causal Expectation-Maximisation [70.45873402967297]
ポリツリーグラフを特徴とするモデルにおいても因果推論はNPハードであることを示す。
我々は因果EMアルゴリズムを導入し、分類的表現変数のデータから潜伏変数の不確かさを再構築する。
我々は、反事実境界が構造方程式の知識なしにしばしば計算できるというトレンドのアイデアには、目立たずの制限があるように思える。
論文 参考訳(メタデータ) (2020-11-04T10:25:13Z) - Causal Bandits without prior knowledge using separating sets [3.1000291317725]
カウサル・バンディット(Causal Bandit)は、エージェントがシーケンシャルな意思決定プロセスにおいて最良のアクションを識別しなければならない古典的なバンディット問題の変種である。
これまでの文献で提案されている手法は、完全な因果グラフの正確な事前知識に依存している。
我々は、必ずしも因果知識に依存しない新たな因果バンディットアルゴリズムを定式化する。
論文 参考訳(メタデータ) (2020-09-16T20:08:03Z) - Influence Diagram Bandits: Variational Thompson Sampling for Structured
Bandit Problems [40.957688390621385]
我々のフレームワークは、アクション、潜伏変数、観察の間の複雑な統計的依存関係をキャプチャする。
我々のモデルで効率的に行動することを学ぶ新しいオンライン学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-07-09T16:25:40Z) - Categorized Bandits [17.865068872754293]
我々は、注文されたカテゴリーの中で腕をグループ化する、新しいマルチアーム・バンディット・セッティングを導入する。
モチベーションの例はeコマースから来ており、顧客は通常、特定の明確に識別されているが未知のカテゴリーの商品に対して、他のどの商品よりも高い欲求を持っている。
論文 参考訳(メタデータ) (2020-05-04T17:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。