論文の概要: Deep Gaussian Covariance Network with Trajectory Sampling for Data-Efficient Policy Search
- arxiv url: http://arxiv.org/abs/2403.15908v1
- Date: Sat, 23 Mar 2024 18:42:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 20:32:18.554812
- Title: Deep Gaussian Covariance Network with Trajectory Sampling for Data-Efficient Policy Search
- Title(参考訳): データ効率の良い政策探索のための軌道サンプリングを用いた深いガウス的共分散ネットワーク
- Authors: Can Bogoclu, Robert Vosshall, Kevin Cremanns, Dirk Roos,
- Abstract要約: 確率的世界モデルはモデルベース強化学習(MBRL)のデータ効率を向上させる
我々は,MBRL問題に対するデータ効率のよい解として,軌道サンプリングと深いガウス共分散ネットワーク(DGCN)を組み合わせることを提案する。
本研究では,4つのよく知られた実験環境を用いて,不確実性伝播法と確率モデルの組み合わせによるサンプル効率を向上する実験的なエビデンスを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Probabilistic world models increase data efficiency of model-based reinforcement learning (MBRL) by guiding the policy with their epistemic uncertainty to improve exploration and acquire new samples. Moreover, the uncertainty-aware learning procedures in probabilistic approaches lead to robust policies that are less sensitive to noisy observations compared to uncertainty unaware solutions. We propose to combine trajectory sampling and deep Gaussian covariance network (DGCN) for a data-efficient solution to MBRL problems in an optimal control setting. We compare trajectory sampling with density-based approximation for uncertainty propagation using three different probabilistic world models; Gaussian processes, Bayesian neural networks, and DGCNs. We provide empirical evidence using four different well-known test environments, that our method improves the sample-efficiency over other combinations of uncertainty propagation methods and probabilistic models. During our tests, we place particular emphasis on the robustness of the learned policies with respect to noisy initial states.
- Abstract(参考訳): 確率的世界モデルは、モデルベース強化学習(MBRL)のデータ効率を向上させるために、その政策をエピステマティック不確実性で導き、探索を改善し、新しいサンプルを取得する。
さらに、確率論的アプローチにおける不確実性を考慮した学習手順は、不確実性のない解に比べてノイズの多い観測に敏感でない堅牢なポリシーをもたらす。
本稿では,MBRL問題に対するデータ効率のよい解として,トラジェクトリサンプリングとディープガウス共分散ネットワーク(DGCN)を組み合わせることを提案する。
本研究では,3つの確率的世界モデル(ガウス過程,ベイズニューラルネットワーク,DGCN)を用いて,軌道サンプリングと密度に基づく不確実性伝播の近似を比較した。
本研究では,4つのよく知られた実験環境を用いて,不確実性伝播法と確率モデルの組み合わせによるサンプル効率を向上する実験的なエビデンスを提案する。
私たちのテストでは、ノイズの多い初期状態に関して、学習したポリシーの堅牢性に特に重点を置いています。
関連論文リスト
- Improved off-policy training of diffusion samplers [93.66433483772055]
本研究では,非正規化密度やエネルギー関数を持つ分布からサンプルを抽出する拡散モデルの訓練問題について検討する。
シミュレーションに基づく変分法や非政治手法など,拡散構造推論手法のベンチマークを行った。
我々の結果は、過去の研究の主張に疑問を投げかけながら、既存のアルゴリズムの相対的な利点を浮き彫りにした。
論文 参考訳(メタデータ) (2024-02-07T18:51:49Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - Distributionally Robust Skeleton Learning of Discrete Bayesian Networks [9.46389554092506]
我々は、潜在的に破損したデータから一般的な離散ベイズネットワークの正確なスケルトンを学習する問題を考察する。
本稿では,有界ワッサーシュタイン距離(KL)における分布群に対する最も有害なリスクを,経験的分布へのKL分散を最適化することを提案する。
本稿では,提案手法が標準正規化回帰手法と密接に関連していることを示す。
論文 参考訳(メタデータ) (2023-11-10T15:33:19Z) - Towards stable real-world equation discovery with assessing
differentiating quality influence [52.2980614912553]
一般的に用いられる有限差分法に代わる方法を提案する。
我々は,これらの手法を実問題と類似した問題に適用可能であること,および方程式発見アルゴリズムの収束性を確保する能力の観点から評価する。
論文 参考訳(メタデータ) (2023-11-09T23:32:06Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - On Uncertainty Calibration and Selective Generation in Probabilistic
Neural Summarization: A Benchmark Study [14.041071717005362]
要約のための最新のディープモデルは、優れたベンチマーク性能を得るが、誤校正された予測の不確実性を生成する傾向にある。
これは、低品質の予測に高い信頼性を割り当て、現実世界のアプリケーションにおける信頼性と信頼性を損なうことを意味する。
確率的深層学習法は誤校正問題の一般的な解法であるが, 複雑な自己回帰的要約タスクにおける相対的有効性はよく理解されていない。
論文 参考訳(メタデータ) (2023-04-17T23:06:28Z) - Robust Learning via Ensemble Density Propagation in Deep Neural Networks [6.0122901245834015]
本稿では,ディープニューラルネットワーク(DNN)の層を通した密度伝搬の問題を定式化し,それをエンサンブル密度伝搬法を用いて解く。
MNISTとCIFAR-10データセットを用いた実験は、ランダムノイズや敵攻撃に対するトレーニングモデルの堅牢性を大幅に改善したことを示している。
論文 参考訳(メタデータ) (2021-11-10T21:26:08Z) - Sampling-free Variational Inference for Neural Networks with
Multiplicative Activation Noise [51.080620762639434]
サンプリングフリー変動推論のための後方近似のより効率的なパラメータ化を提案する。
提案手法は,標準回帰問題に対する競合的な結果をもたらし,大規模画像分類タスクに適している。
論文 参考訳(メタデータ) (2021-03-15T16:16:18Z) - Distributionally Robust Chance Constrained Programming with Generative
Adversarial Networks (GANs) [0.0]
GAN(Generative Adversarial Network)をベースとしたデータ駆動型分散ロバストな制約付きプログラミングフレームワークを提案する。
非パラメトリックかつ教師なしの方法で、歴史的データから分布情報を完全抽出するために、GANを適用する。
提案手法は需要不確実性の下でサプライチェーン最適化に適用される。
論文 参考訳(メタデータ) (2020-02-28T00:05:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。