論文の概要: Exploiting Expert-guided Symmetry Detection in Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2112.09943v1
- Date: Sat, 18 Dec 2021 14:32:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 15:21:17.770735
- Title: Exploiting Expert-guided Symmetry Detection in Markov Decision Processes
- Title(参考訳): マルコフ決定過程におけるエキスパート誘導対称性の検出
- Authors: Giorgio Angelotti, Nicolas Drougard, Caroline P. C. Chanel
- Abstract要約: 非決定論的MDPに取り組むためにパラダイムを拡張します。
統計的距離に基づく分類環境における検出しきい値を提案する。
我々はWilcoxon符号付き統計テストに基づく連続環境における分布シフトのベンチマークを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline estimation of the dynamical model of a Markov Decision Process (MDP)
is a non-trivial task that greatly depends on the data available to the
learning phase. Sometimes the dynamics of the model is invariant with respect
to some transformations of the current state and action. Recent works showed
that an expert-guided pipeline relying on Density Estimation methods as Deep
Neural Network based Normalizing Flows effectively detects this structure in
deterministic environments, both categorical and continuous-valued. The
acquired knowledge can be exploited to augment the original data set, leading
eventually to a reduction in the distributional shift between the true and the
learnt model. In this work we extend the paradigm to also tackle non
deterministic MDPs, in particular 1) we propose a detection threshold in
categorical environments based on statistical distances, 2) we introduce a
benchmark of the distributional shift in continuous environments based on the
Wilcoxon signed-rank statistical test and 3) we show that the former results
lead to a performance improvement when solving the learnt MDP and then applying
the optimal policy in the real environment.
- Abstract(参考訳): マルコフ決定過程(MDP)の動的モデルのオフライン推定は、学習フェーズで利用可能なデータに大きく依存する非自明なタスクである。
時々、モデルのダイナミクスは、現在の状態と作用のいくつかの変換に関して不変である。
近年の研究では,Deep Neural Network based Normalizing Flows として密度推定手法に依存する専門家誘導パイプラインが,分類的・連続的評価の両面で決定論的環境において,この構造を効果的に検出することを示した。
獲得した知識を利用して元のデータセットを拡大し、最終的には真と学習モデルの間の分布シフトを減少させる。
本研究では,非決定論的MDP,特にそのパラダイムを拡張した。
1) 統計的距離に基づくカテゴリー環境における検出しきい値を提案する。
2)Wilcoxon符号付き統計的テストとそれに基づく連続環境の分布変化のベンチマークを導入する。
3) 学習済みのMDPを解き, 実環境に最適なポリシーを適用すると, 前者の結果が性能改善につながることを示す。
関連論文リスト
- Adaptive Anomaly Detection in Network Flows with Low-Rank Tensor Decompositions and Deep Unrolling [9.20186865054847]
異常検出(AD)は、将来の通信システムのレジリエンスを確保するための重要な要素として、ますます認識されている。
この研究は、不完全測定を用いたネットワークフローにおけるADについて考察する。
本稿では,正規化モデル適合性に基づくブロック帰属凸近似アルゴリズムを提案する。
ベイズ的アプローチに触発されて、我々はモデルアーキテクチャを拡張し、フローごとのオンライン適応とステップごとの統計処理を行う。
論文 参考訳(メタデータ) (2024-09-17T19:59:57Z) - Effective Restoration of Source Knowledge in Continual Test Time
Adaptation [44.17577480511772]
本稿では、動的環境におけるドメインシフトを識別できる教師なし領域変更検出手法を提案する。
情報源から知識を復元することにより、モデルパラメータの段階的劣化に起因する負の結果を効果的に補正する。
我々は,最先端の適応手法と比較して,提案手法の優れた性能を示すために,ベンチマークデータセットの広範な実験を行った。
論文 参考訳(メタデータ) (2023-11-08T19:21:48Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Variational Latent Branching Model for Off-Policy Evaluation [23.073461349048834]
マルコフ決定過程(MDP)の遷移関数を学習するための変動潜在分岐モデル(VLBM)を提案する。
ランダムなモデル重みに対するモデルの堅牢性を改善するために分岐アーキテクチャを導入する。
VLBM は既存の OPE 手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2023-01-28T02:20:03Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - MARS: Meta-Learning as Score Matching in the Function Space [79.73213540203389]
本稿では,一連の関連するデータセットから帰納バイアスを抽出する手法を提案する。
機能的ベイズニューラルネットワーク推論を用いて、前者をプロセスとみなし、関数空間で推論を行う。
本手法は,データ生成プロセスのスコア関数をメタラーニングすることにより,複雑な事前知識をシームレスに獲得し,表現することができる。
論文 参考訳(メタデータ) (2022-10-24T15:14:26Z) - Invariance Learning in Deep Neural Networks with Differentiable Laplace
Approximations [76.82124752950148]
我々はデータ拡張を選択するための便利な勾配法を開発した。
我々はKronecker-factored Laplace近似を我々の目的とする限界確率に近似する。
論文 参考訳(メタデータ) (2022-02-22T02:51:11Z) - Expert-Guided Symmetry Detection in Markov Decision Processes [0.0]
MDP力学が不変である状態-作用空間の変換の存在を検出することを目的としたパラダイムを提案する。
その結果, 検出した対称性を用いて得られたデータを用いてデータセットを拡張した場合, モデル分布シフトが小さくなることがわかった。
論文 参考訳(メタデータ) (2021-11-19T16:12:30Z) - Learning Neural Models for Natural Language Processing in the Face of
Distributional Shift [10.990447273771592]
特定のデータセットでひとつのタスクを実行するための強力な神経予測器をトレーニングするNLPのパラダイムが、さまざまなアプリケーションで最先端のパフォーマンスを実現している。
データ分布が定常である、すなわち、トレーニングとテストの時間の両方で、データは固定された分布からサンプリングされる、という仮定に基づいて構築される。
この方法でのトレーニングは、人間が絶えず変化する情報の流れの中で学習し、操作できる方法と矛盾する。
データ分散がモデル寿命の経過とともにシフトすることが期待される実世界のユースケースに不適応である。
論文 参考訳(メタデータ) (2021-09-03T14:29:20Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。