論文の概要: Exploiting Causal Graph Priors with Posterior Sampling for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.07518v2
- Date: Mon, 8 Apr 2024 10:52:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 04:28:07.298466
- Title: Exploiting Causal Graph Priors with Posterior Sampling for Reinforcement Learning
- Title(参考訳): 強化学習のための後方サンプリングによる因果グラフの爆発的先行
- Authors: Mirco Mutti, Riccardo De Santi, Marcello Restelli, Alexander Marx, Giorgia Ramponi,
- Abstract要約: 後部サンプリングは、環境の遷移力学に関する事前知識の活用を可能にする。
本稿では,環境変数に対する因果グラフとして先行値が与えられる新しい後方サンプリング手法を提案する。
- 参考スコア(独自算出の注目度): 86.22660674919746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Posterior sampling allows exploitation of prior knowledge on the environment's transition dynamics to improve the sample efficiency of reinforcement learning. The prior is typically specified as a class of parametric distributions, the design of which can be cumbersome in practice, often resulting in the choice of uninformative priors. In this work, we propose a novel posterior sampling approach in which the prior is given as a (partial) causal graph over the environment's variables. The latter is often more natural to design, such as listing known causal dependencies between biometric features in a medical treatment study. Specifically, we propose a hierarchical Bayesian procedure, called C-PSRL, simultaneously learning the full causal graph at the higher level and the parameters of the resulting factored dynamics at the lower level. We provide an analysis of the Bayesian regret of C-PSRL that explicitly connects the regret rate with the degree of prior knowledge. Our numerical evaluation conducted in illustrative domains confirms that C-PSRL strongly improves the efficiency of posterior sampling with an uninformative prior while performing close to posterior sampling with the full causal graph.
- Abstract(参考訳): 後部サンプリングにより、環境の遷移力学に関する事前知識を活用でき、強化学習のサンプル効率を向上させることができる。
前者は典型的にはパラメトリック分布のクラスとして指定され、その設計は実際は煩雑であり、しばしば非形式的前置詞の選択をもたらす。
本研究では,環境変数に対する(部分的な)因果グラフとして前者が与えられる新しい後方サンプリング手法を提案する。
後者は、医学的治療研究において、生体的特徴間の既知の因果関係を列挙するなど、設計にとってより自然であることが多い。
具体的には,C-PSRLと呼ばれる階層的ベイズ的手法を提案する。
我々は,C-PSRLのベイズ的後悔を解析し,その後悔率と先行知識の程度を明示的に結びつける。
C-PSRLは,全因果グラフを用いて後方サンプリングに近づきながら,非形式前の後方サンプリングの効率を強く向上することを確認した。
関連論文リスト
- Few-Shot Class-Incremental Learning with Prior Knowledge [94.95569068211195]
本稿では,事前学習モデルの一般化能力を高めるために,先行知識を用いた学習(LwPK)を提案する。
実験結果から,LwPKは破滅的忘れ込みに対するモデルレジリエンスを効果的に向上させることが示された。
論文 参考訳(メタデータ) (2024-02-02T08:05:35Z) - On the Impact of Overparameterization on the Training of a Shallow
Neural Network in High Dimensions [0.0]
本研究では,2次活性化関数と2次コストを持つ浅部ニューラルネットワークのトレーニングダイナミクスについて検討する。
同じニューラルアーキテクチャに関する以前の研究と並行して、集団リスクの勾配流に従って最適化を行う。
論文 参考訳(メタデータ) (2023-11-07T08:20:31Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - Assessment of Reinforcement Learning Algorithms for Nuclear Power Plant
Fuel Optimization [0.0]
この研究は、深いRLを用いてロードパターンの問題を解決するための第一種アプローチを示し、任意のエンジニアリング設計最適化に利用することができる。
論文 参考訳(メタデータ) (2023-05-09T23:51:24Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Fine-grained Correlation Loss for Regression [20.175415393263037]
本稿では, 従来の回帰課題を再考し, 微粒化相関損失を直接最適化する手法を提案する。
本手法は,画像品質評価とバイオメトリック計測を含む2つの典型的な超音波画像回帰タスクに対して広範囲に検証する。
論文 参考訳(メタデータ) (2022-07-01T11:25:50Z) - On the Convergence Rate of Projected Gradient Descent for a
Back-Projection based Objective [58.33065918353532]
我々は、最小二乗(LS)の代替として、バックプロジェクションに基づく忠実度項を考える。
LS項ではなくBP項を用いることで最適化アルゴリズムの繰り返しを少なくすることを示す。
論文 参考訳(メタデータ) (2020-05-03T00:58:23Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。