論文の概要: Exploiting Causal Graph Priors with Posterior Sampling for Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2310.07518v1
- Date: Wed, 11 Oct 2023 14:16:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 22:33:17.052646
- Title: Exploiting Causal Graph Priors with Posterior Sampling for Reinforcement
Learning
- Title(参考訳): 後方サンプリングによる因果グラフを用いた強化学習
- Authors: Mirco Mutti, Riccardo De Santi, Marcello Restelli, Alexander Marx,
Giorgia Ramponi
- Abstract要約: 後部サンプリングは、環境の遷移力学に関する事前知識の活用を可能にする。
本稿では,環境変数に対する因果グラフとして先行値が与えられる新しい後方サンプリング手法を提案する。
- 参考スコア(独自算出の注目度): 91.3670767302039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Posterior sampling allows the exploitation of prior knowledge of the
environment's transition dynamics to improve the sample efficiency of
reinforcement learning. The prior is typically specified as a class of
parametric distributions, a task that can be cumbersome in practice, often
resulting in the choice of uninformative priors. In this work, we propose a
novel posterior sampling approach in which the prior is given as a (partial)
causal graph over the environment's variables. The latter is often more natural
to design, such as listing known causal dependencies between biometric features
in a medical treatment study. Specifically, we propose a hierarchical Bayesian
procedure, called C-PSRL, simultaneously learning the full causal graph at the
higher level and the parameters of the resulting factored dynamics at the lower
level. For this procedure, we provide an analysis of its Bayesian regret, which
explicitly connects the regret rate with the degree of prior knowledge. Our
numerical evaluation conducted in illustrative domains confirms that C-PSRL
strongly improves the efficiency of posterior sampling with an uninformative
prior while performing close to posterior sampling with the full causal graph.
- Abstract(参考訳): 後部サンプリングにより、環境遷移力学の事前知識を活用でき、強化学習のサンプル効率を向上させることができる。
前者は典型的にはパラメトリック分布のクラスとして指定されるが、これは実際は面倒な作業であり、しばしば非形式的事前の選択をもたらす。
本研究では,環境変数上の(部分的な)因果グラフとして前者を付与する新しい後続サンプリング手法を提案する。
後者は、医学的な研究において生体指標間の既知の因果関係をリストするなど、設計においてより自然であることが多い。
具体的には,C-PSRLと呼ばれる階層的ベイズ的手法を提案する。
本手法では,後悔率と事前知識の程度を明示的に関連付けたベイズ後悔の分析を行う。
C-PSRLは,全因果グラフを用いて後方サンプリングに近づきながら,非形式前の後方サンプリングの効率を強く向上することを確認した。
関連論文リスト
- Federated Class-Incremental Learning with Hierarchical Generative Prototypes [10.532838477096055]
Federated Learning (FL)は、複数のデバイス(クライアント)に分散した計算をすることで、ディープモデルのトレーニングを解き放つことを目的としている。
提案手法は,学習可能なプロンプトを用いてトレーニング済みのバックボーンを効率よく微調整することにより,最終層のバイアスを抑える。
提案手法は現状を著しく改善し, 平均精度は+7.8%向上した。
論文 参考訳(メタデータ) (2024-06-04T16:12:27Z) - Few-Shot Class-Incremental Learning with Prior Knowledge [94.95569068211195]
本稿では,事前学習モデルの一般化能力を高めるために,先行知識を用いた学習(LwPK)を提案する。
実験結果から,LwPKは破滅的忘れ込みに対するモデルレジリエンスを効果的に向上させることが示された。
論文 参考訳(メタデータ) (2024-02-02T08:05:35Z) - On the Impact of Overparameterization on the Training of a Shallow
Neural Network in High Dimensions [0.0]
本研究では,2次活性化関数と2次コストを持つ浅部ニューラルネットワークのトレーニングダイナミクスについて検討する。
同じニューラルアーキテクチャに関する以前の研究と並行して、集団リスクの勾配流に従って最適化を行う。
論文 参考訳(メタデータ) (2023-11-07T08:20:31Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - Assessment of Reinforcement Learning Algorithms for Nuclear Power Plant
Fuel Optimization [0.0]
この研究は、深いRLを用いてロードパターンの問題を解決するための第一種アプローチを示し、任意のエンジニアリング設計最適化に利用することができる。
論文 参考訳(メタデータ) (2023-05-09T23:51:24Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Fine-grained Correlation Loss for Regression [20.175415393263037]
本稿では, 従来の回帰課題を再考し, 微粒化相関損失を直接最適化する手法を提案する。
本手法は,画像品質評価とバイオメトリック計測を含む2つの典型的な超音波画像回帰タスクに対して広範囲に検証する。
論文 参考訳(メタデータ) (2022-07-01T11:25:50Z) - On the Convergence Rate of Projected Gradient Descent for a
Back-Projection based Objective [58.33065918353532]
我々は、最小二乗(LS)の代替として、バックプロジェクションに基づく忠実度項を考える。
LS項ではなくBP項を用いることで最適化アルゴリズムの繰り返しを少なくすることを示す。
論文 参考訳(メタデータ) (2020-05-03T00:58:23Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。