論文の概要: Graph Learning is Suboptimal in Causal Bandits
- arxiv url: http://arxiv.org/abs/2510.16811v1
- Date: Sun, 19 Oct 2025 12:34:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.160923
- Title: Graph Learning is Suboptimal in Causal Bandits
- Title(参考訳): 因果帯域におけるグラフ学習は最適ではない
- Authors: Mohammad Shahverdikondori, Jalal Etesami, Negar Kiyavash,
- Abstract要約: 本研究は, 因果関係が不明な因果関係下, 因果関係における因果関係の最小化について検討した。
以上の結果から,親集合の学習は最適以下であることが示唆された。
グラフと親の回復をバイパスするほぼ最適なアルゴリズムを提案し、親の識別が後悔の最小化のために本当に不要であることを示す。
- 参考スコア(独自算出の注目度): 25.361115767570244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study regret minimization in causal bandits under causal sufficiency where the underlying causal structure is not known to the agent. Previous work has focused on identifying the reward's parents and then applying classic bandit methods to them, or jointly learning the parents while minimizing regret. We investigate whether such strategies are optimal. Somewhat counterintuitively, our results show that learning the parent set is suboptimal. We do so by proving that there exist instances where regret minimization and parent identification are fundamentally conflicting objectives. We further analyze both the known and unknown parent set size regimes, establish novel regret lower bounds that capture the combinatorial structure of the action space. Building on these insights, we propose nearly optimal algorithms that bypass graph and parent recovery, demonstrating that parent identification is indeed unnecessary for regret minimization. Experiments confirm that there exists a large performance gap between our method and existing baselines in various environments.
- Abstract(参考訳): 本研究は, 因果関係が不明な因果関係下, 因果関係における因果関係の最小化について検討した。
これまでの研究は、報酬の親を特定し、古典的な盗賊法を適用したり、後悔を最小限に抑えながら両親を共同で学ぶことに重点を置いてきた。
このような戦略が最適かどうかを考察する。
いずれにせよ,本研究の結果は,親集合の学習が準最適であることを示唆している。
我々は、後悔の最小化と親の識別が基本的に矛盾する目標であるケースが存在することを証明することによって、そうする。
さらに、既知の親セットサイズと未知の親セットサイズを解析し、アクション空間の組合せ構造を捉える新しい後悔の低い境界を確立する。
これらの知見に基づいて、グラフと親の回復をバイパスするほぼ最適なアルゴリズムを提案し、親の識別が後悔の最小化のために本当に不要であることを示す。
実験により,本手法と既存のベースラインとの間には,様々な環境において大きな性能差があることが確認された。
関連論文リスト
- Partial Structure Discovery is Sufficient for No-regret Learning in Causal Bandits [7.064432289838905]
現在の研究はしばしば因果グラフが知られていると仮定するが、これは必ずしも先入観として利用できるとは限らない。
我々は、根底にある因果グラフが不明で、潜伏する共同設立者を含むシナリオにおける因果帯域の問題に焦点を当てる。
われわれは、必要で十分な潜在的共同創設者の集合を公式に特徴付け、可能な限り最適な武器が正しく特定されるように検出または学習する必要がある。
論文 参考訳(メタデータ) (2024-11-06T16:59:11Z) - Causal Bandits: The Pareto Optimal Frontier of Adaptivity, a Reduction to Linear Bandits, and Limitations around Unknown Marginals [28.94461817548213]
条件付き良性環境と任意の環境下での学習性能におけるトレードオフの可能性について,上界と下界の整合性を証明した。
この問題を線形バンディット設定に還元することで、最初に因果バンディットのインスタンス依存境界を求める。
論文 参考訳(メタデータ) (2024-07-01T04:12:15Z) - Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - Additive Causal Bandits with Unknown Graph [10.575089475850465]
我々は,学習者が因果グラフに関連付けられたランダムな変数の集合に介入することを選択可能な因果帯域設定における行動を選択するアルゴリズムを探索する。
学習者の目標は、観測可能な変数に対するすべての介入の中で、結果変数の期待を最大化する介入を素早く見つけることである。
論文 参考訳(メタデータ) (2023-06-13T15:43:04Z) - Bandit Social Learning: Exploration under Myopic Behavior [54.767961587919075]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - Deep Hierarchy in Bandits [51.22833900944146]
行動の報酬は、しばしば相関する。
統計的効率を最大化するためには,これらの相関を学習に活用することが重要である。
平均作用報酬の相関が階層的ベイズモデルで表されるこの問題のバンディット変法を定式化する。
論文 参考訳(メタデータ) (2022-02-03T08:15:53Z) - Beyond Value-Function Gaps: Improved Instance-Dependent Regret Bounds
for Episodic Reinforcement Learning [50.44564503645015]
有限エピソードマルコフ決定過程における強化学習のための改良されたギャップ依存的後悔境界を提供する。
楽観的なアルゴリズムでは,より強い後悔境界を証明し,多数のMDPに対して新たな情報理論的下限を伴う。
論文 参考訳(メタデータ) (2021-07-02T20:36:05Z) - Lenient Regret for Multi-Armed Bandits [72.56064196252498]
エージェントが順番に行動を選択し、その行動に対する報酬を観察するマルチアーマッド・バンディット(MAB)問題を考察する。
アルゴリズムの大多数は、後悔、すなわち最高の行動の報酬とエージェントの行動の累積的な差を最小化しようとするが、この基準は望ましくない結果をもたらすかもしれない。
我々は、いくつかの$epsilon$よりも小さな最適性ギャップを無視した、より寛大で寛大で後悔すべき基準を提案する。
論文 参考訳(メタデータ) (2020-08-10T08:30:52Z) - Optimal Learning for Structured Bandits [6.370905925442655]
本研究では,構造情報の存在下での不確実性の下でのオンライン意思決定の問題である,構造化されたマルチアームバンディットについて検討する。
本稿では,情報理論的後悔を一定要素まで低く抑え,幅広い構造情報を扱える新しい学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-14T18:56:44Z) - Excursion Search for Constrained Bayesian Optimization under a Limited
Budget of Failures [62.41541049302712]
本稿では,所定の予算の失敗の関数として探索において許容されるリスクの量を制御する制御理論に基づく新しい意思決定者を提案する。
本アルゴリズムは, 種々の最適化実験において, 故障予算をより効率的に利用し, 一般に, 最先端の手法よりも, 後悔度を低くする。
論文 参考訳(メタデータ) (2020-05-15T09:54:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。