論文の概要: Amortized Active Causal Induction with Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.16718v1
- Date: Sun, 26 May 2024 23:14:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 19:35:41.722519
- Title: Amortized Active Causal Induction with Deep Reinforcement Learning
- Title(参考訳): 深部強化学習によるアモルタイズされた能動因果誘導
- Authors: Yashas Annadani, Panagiotis Tigas, Stefan Bauer, Adam Foster,
- Abstract要約: Causal Amortized Active Structure Learning (CAASL) は、適応的でリアルタイムで、可能性へのアクセスを必要としない介入を選択できるアクティブな介入設計ポリシーである。
このポリシーは,設計環境シミュレータ上での強化学習と,収集したデータから推定した因果グラフの後部への真の因果グラフの接近度を測定する報奨関数を用いて訓練される。
- 参考スコア(独自算出の注目度): 20.74277346825603
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present Causal Amortized Active Structure Learning (CAASL), an active intervention design policy that can select interventions that are adaptive, real-time and that does not require access to the likelihood. This policy, an amortized network based on the transformer, is trained with reinforcement learning on a simulator of the design environment, and a reward function that measures how close the true causal graph is to a causal graph posterior inferred from the gathered data. On synthetic data and a single-cell gene expression simulator, we demonstrate empirically that the data acquired through our policy results in a better estimate of the underlying causal graph than alternative strategies. Our design policy successfully achieves amortized intervention design on the distribution of the training environment while also generalizing well to distribution shifts in test-time design environments. Further, our policy also demonstrates excellent zero-shot generalization to design environments with dimensionality higher than that during training, and to intervention types that it has not been trained on.
- Abstract(参考訳): 本稿では、適応的かつリアルタイムな介入を選択でき、可能性へのアクセスを必要としない介入設計方針であるCausal Amortized Active Structure Learning(CAASL)を提案する。
このポリシーは、変換器をベースとした償却ネットワークであり、設計環境シミュレータ上で強化学習を行い、収集されたデータから推定された因果グラフに真の因果グラフがどの程度近いかを測定する報奨関数を訓練する。
合成データと単細胞遺伝子発現シミュレータを用いて、我々のポリシーによって得られたデータは、代替戦略よりも基礎となる因果グラフをよりよく推定できることを実証的に実証した。
我々の設計方針は,試験時間設計環境における分布変化をうまく一般化しつつ,トレーニング環境の分布に対する不適切な介入設計をうまく達成する。
さらに,本方針は,トレーニング中よりも次元性が高い環境の設計や,トレーニングされていない介入タイプに対して,優れたゼロショット一般化を示すものである。
関連論文リスト
- Out-of-Distribution Adaptation in Offline RL: Counterfactual Reasoning via Causal Normalizing Flows [30.926243761581624]
CNF(Causal Normalizing Flow)は、オフラインポリシー評価とトレーニングにおいて、データ生成と拡張のための遷移関数と報酬関数を学習するために開発された。
CNFは、シーケンシャルな意思決定タスクに対する予測的および反ファクト的推論能力を獲得し、OOD適応の可能性を明らかにしている。
我々のCNFベースのオフラインRLアプローチは経験的評価によって検証され、モデルフリーおよびモデルベース手法よりもかなりのマージンで性能が向上する。
論文 参考訳(メタデータ) (2024-05-06T22:44:32Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Learning by Doing: An Online Causal Reinforcement Learning Framework
with Causal-Aware Policy [40.33036146207819]
我々は、図形因果モデルを用いて、状態の生成過程を明示的にモデル化することを検討する。
我々は、環境のアクティブな介入学習とRL相互作用プロセスに更新する因果構造を定式化する。
論文 参考訳(メタデータ) (2024-02-07T14:09:34Z) - Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline
Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。
本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-12-15T14:49:41Z) - Amortized Network Intervention to Steer the Excitatory Point Processes [8.15558505134853]
動的グラフ上に発生する励起点過程(すなわちイベントフロー)は、時間と空間を通じて離散事象がどのように広がるかを把握するためのきめ細かいモデルを提供する。
動的グラフ構造を変更してイベントフローを効果的に操縦する方法は、感染症の拡散を抑制する動機となる興味深い問題である。
我々はAmortized Network Interventionsフレームワークを設計し、履歴やその他のコンテキストから最適なポリシーをプールできるようにする。
論文 参考訳(メタデータ) (2023-10-06T11:17:28Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Data Augmentation through Expert-guided Symmetry Detection to Improve
Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。
近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。
学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文 参考訳(メタデータ) (2021-12-18T14:32:32Z) - Reinforcement Learning-based Black-Box Evasion Attacks to Link
Prediction in Dynamic Graphs [87.5882042724041]
動的グラフ(LPDG)におけるリンク予測は、多様な応用を持つ重要な研究課題である。
我々は,LPDG法の脆弱性を調査し,最初の実用的なブラックボックス回避攻撃を提案する。
論文 参考訳(メタデータ) (2020-09-01T01:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。