論文の概要: Expert-Guided Symmetry Detection in Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2111.10297v1
- Date: Fri, 19 Nov 2021 16:12:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-22 14:28:07.310272
- Title: Expert-Guided Symmetry Detection in Markov Decision Processes
- Title(参考訳): マルコフ決定過程におけるエキスパート誘導対称性検出
- Authors: Giorgio Angelotti, Nicolas Drougard, Caroline P. C. Chanel
- Abstract要約: MDP力学が不変である状態-作用空間の変換の存在を検出することを目的としたパラダイムを提案する。
その結果, 検出した対称性を用いて得られたデータを用いてデータセットを拡張した場合, モデル分布シフトが小さくなることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning a Markov Decision Process (MDP) from a fixed batch of trajectories
is a non-trivial task whose outcome's quality depends on both the amount and
the diversity of the sampled regions of the state-action space. Yet, many MDPs
are endowed with invariant reward and transition functions with respect to some
transformations of the current state and action. Being able to detect and
exploit these structures could benefit not only the learning of the MDP but
also the computation of its subsequent optimal control policy. In this work we
propose a paradigm, based on Density Estimation methods, that aims to detect
the presence of some already supposed transformations of the state-action space
for which the MDP dynamics is invariant. We tested the proposed approach in a
discrete toroidal grid environment and in two notorious environments of
OpenAI's Gym Learning Suite. The results demonstrate that the model
distributional shift is reduced when the dataset is augmented with the data
obtained by using the detected symmetries, allowing for a more thorough and
data-efficient learning of the transition functions.
- Abstract(参考訳): 固定された軌道のバッチからマルコフ決定過程(MDP)を学習することは、結果の質が状態-作用空間のサンプル領域の量と多様性に依存する非自明なタスクである。
しかし、多くのMDPには、現在の状態と動作の変換に関して不変の報酬と遷移関数が与えられている。
これらの構造を検出して活用することは、MDPの学習だけでなく、その後の最適制御ポリシーの計算にも役立つ。
本研究では,mdp動力学が不変である状態-作用空間の既に想定されている変換の存在を検出することを目的とした,密度推定法に基づくパラダイムを提案する。
提案手法を離散トロイダルグリッド環境とOpenAIのGym Learning Suiteの2つの悪名高い環境で検証した。
その結果, 検出した対称性を用いて得られたデータを用いてデータセットを拡張した場合, モデル分布シフトを低減し, 遷移関数のより徹底的でデータ効率のよい学習を可能にした。
関連論文リスト
- Adaptive Distribution Masked Autoencoders for Continual Test-Time
Adaptation [49.827306773992376]
連続的テスト時間適応(CTTA)は、ソース事前学習モデルから目標分布の連続的な変化に移行するために提案される。
提案手法は,CTTAタスクの分類とセグメンテーションの両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T15:34:52Z) - Machine Learning for the identification of phase-transitions in
interacting agent-based systems [0.0]
エージェントモデルに対する位相遷移をピンポイントするデータ駆動型フレームワークを提案する。
我々は、データ駆動潜在変数の相似集合を特定するために、多様体学習アルゴリズムを用いる。
次に、深層学習フレームワークを用いて、データ駆動座標の共形再パラメータ化を求める。
論文 参考訳(メタデータ) (2023-10-29T15:07:08Z) - Winning Prize Comes from Losing Tickets: Improve Invariant Learning by
Exploring Variant Parameters for Out-of-Distribution Generalization [76.27711056914168]
Out-of-Distribution (OOD) 一般化は、分散固有の特徴に適合することなく、様々な環境によく適応する堅牢なモデルを学ぶことを目的としている。
LTH(Lottery Ticket hypothesis)に基づく最近の研究は、学習目標を最小化し、タスクに重要なパラメータのいくつかを見つけることでこの問題に対処している。
Invariant Learning (EVIL) における変数探索手法を提案する。
論文 参考訳(メタデータ) (2023-10-25T06:10:57Z) - Data Augmentation through Expert-guided Symmetry Detection to Improve
Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。
近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。
学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文 参考訳(メタデータ) (2021-12-18T14:32:32Z) - Meta Learning Low Rank Covariance Factors for Energy-Based Deterministic
Uncertainty [58.144520501201995]
ニューラルネットワーク層のBi-Lipschitz正規化は、各レイヤの特徴空間におけるデータインスタンス間の相対距離を保存する。
注意セットエンコーダを用いて,タスク固有の共分散行列を効率的に構築するために,対角的,対角的,低ランクな要素のメタ学習を提案する。
また,最終的な予測分布を達成するために,スケールしたエネルギーを利用する推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T22:04:19Z) - Dynamic Bayesian Approach for decision-making in Ego-Things [8.577234269009042]
本稿では,マルチセンサデータと特徴選択に基づく動的システムの異常検出手法を提案する。
成長型ニューラルガス(GNG)は、マルチセンサーデータを一連のノードにクラスタリングするために使用される。
本手法は状態推定と異常検出にマルコフジャンプ粒子フィルタ(MJPF)を用いる。
論文 参考訳(メタデータ) (2020-10-28T11:38:51Z) - Semantic Change Detection with Asymmetric Siamese Networks [71.28665116793138]
2つの空中画像が与えられた場合、セマンティックチェンジ検出は、土地被覆のバリエーションを特定し、それらの変化タイプをピクセルワイド境界で識別することを目的としている。
この問題は、正確な都市計画や天然資源管理など、多くの地球ビジョンに関連するタスクにおいて不可欠である。
本研究では, 広く異なる構造を持つモジュールから得られた特徴対を用いて意味変化を同定し, 同定するための非対称システマネットワーク(ASN)を提案する。
論文 参考訳(メタデータ) (2020-10-12T13:26:30Z) - A Kernel-Based Approach to Non-Stationary Reinforcement Learning in
Metric Spaces [53.47210316424326]
KeRNSは、非定常マルコフ決定過程におけるエピソード強化学習のためのアルゴリズムである。
我々は、状態-作用空間の被覆次元と時間とともにMDPの総変動にスケールする後悔境界を証明した。
論文 参考訳(メタデータ) (2020-07-09T21:37:13Z) - Plannable Approximations to MDP Homomorphisms: Equivariance under
Actions [72.30921397899684]
学習した表現に作用同値を強制する対照的な損失関数を導入する。
損失が 0 であるとき、決定論的マルコフ決定過程の準同型が存在することを証明している。
本研究では, 決定論的MDPに対して, 抽象MDPの最適方針を元のMDPに引き上げることに成功した。
論文 参考訳(メタデータ) (2020-02-27T08:29:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。