論文の概要: Expert-Guided Symmetry Detection in Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2111.10297v1
- Date: Fri, 19 Nov 2021 16:12:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-22 14:28:07.310272
- Title: Expert-Guided Symmetry Detection in Markov Decision Processes
- Title(参考訳): マルコフ決定過程におけるエキスパート誘導対称性検出
- Authors: Giorgio Angelotti, Nicolas Drougard, Caroline P. C. Chanel
- Abstract要約: MDP力学が不変である状態-作用空間の変換の存在を検出することを目的としたパラダイムを提案する。
その結果, 検出した対称性を用いて得られたデータを用いてデータセットを拡張した場合, モデル分布シフトが小さくなることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning a Markov Decision Process (MDP) from a fixed batch of trajectories
is a non-trivial task whose outcome's quality depends on both the amount and
the diversity of the sampled regions of the state-action space. Yet, many MDPs
are endowed with invariant reward and transition functions with respect to some
transformations of the current state and action. Being able to detect and
exploit these structures could benefit not only the learning of the MDP but
also the computation of its subsequent optimal control policy. In this work we
propose a paradigm, based on Density Estimation methods, that aims to detect
the presence of some already supposed transformations of the state-action space
for which the MDP dynamics is invariant. We tested the proposed approach in a
discrete toroidal grid environment and in two notorious environments of
OpenAI's Gym Learning Suite. The results demonstrate that the model
distributional shift is reduced when the dataset is augmented with the data
obtained by using the detected symmetries, allowing for a more thorough and
data-efficient learning of the transition functions.
- Abstract(参考訳): 固定された軌道のバッチからマルコフ決定過程(MDP)を学習することは、結果の質が状態-作用空間のサンプル領域の量と多様性に依存する非自明なタスクである。
しかし、多くのMDPには、現在の状態と動作の変換に関して不変の報酬と遷移関数が与えられている。
これらの構造を検出して活用することは、MDPの学習だけでなく、その後の最適制御ポリシーの計算にも役立つ。
本研究では,mdp動力学が不変である状態-作用空間の既に想定されている変換の存在を検出することを目的とした,密度推定法に基づくパラダイムを提案する。
提案手法を離散トロイダルグリッド環境とOpenAIのGym Learning Suiteの2つの悪名高い環境で検証した。
その結果, 検出した対称性を用いて得られたデータを用いてデータセットを拡張した場合, モデル分布シフトを低減し, 遷移関数のより徹底的でデータ効率のよい学習を可能にした。
関連論文リスト
- You are out of context! [0.0]
新しいデータは、モデルによって学習された幾何学的関係を伸ばしたり、圧縮したり、ねじったりする力として振る舞うことができる。
本稿では,ベクトル空間表現における「変形」の概念に基づく機械学習モデルのための新しいドリフト検出手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T10:17:43Z) - PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings [55.55445978692678]
PseudoNeg-MAEは,ポイントマスク自動エンコーダのグローバルな特徴表現を強化する,自己教師型学習フレームワークである。
PseudoNeg-MAE は ModelNet40 と ScanObjectNN のデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-24T07:57:21Z) - Variational Learning of Gaussian Process Latent Variable Models through Stochastic Gradient Annealed Importance Sampling [22.256068524699472]
本研究では,これらの問題に対処するために,Annealed Importance Smpling (AIS)アプローチを提案する。
シークエンシャルモンテカルロサンプリング器とVIの強度を組み合わせることで、より広い範囲の後方分布を探索し、徐々にターゲット分布に接近する。
実験結果から,本手法はより厳密な変動境界,高い対数類似度,より堅牢な収束率で最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-08-13T08:09:05Z) - Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation [49.827306773992376]
連続的テスト時間適応(CTTA)は、ソース事前学習モデルから目標分布の連続的な変化に移行するために提案される。
提案手法は,CTTAタスクの分類とセグメンテーションの両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T15:34:52Z) - Winning Prize Comes from Losing Tickets: Improve Invariant Learning by
Exploring Variant Parameters for Out-of-Distribution Generalization [76.27711056914168]
Out-of-Distribution (OOD) 一般化は、分散固有の特徴に適合することなく、様々な環境によく適応する堅牢なモデルを学ぶことを目的としている。
LTH(Lottery Ticket hypothesis)に基づく最近の研究は、学習目標を最小化し、タスクに重要なパラメータのいくつかを見つけることでこの問題に対処している。
Invariant Learning (EVIL) における変数探索手法を提案する。
論文 参考訳(メタデータ) (2023-10-25T06:10:57Z) - Data Augmentation through Expert-guided Symmetry Detection to Improve
Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。
近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。
学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文 参考訳(メタデータ) (2021-12-18T14:32:32Z) - Semantic Change Detection with Asymmetric Siamese Networks [71.28665116793138]
2つの空中画像が与えられた場合、セマンティックチェンジ検出は、土地被覆のバリエーションを特定し、それらの変化タイプをピクセルワイド境界で識別することを目的としている。
この問題は、正確な都市計画や天然資源管理など、多くの地球ビジョンに関連するタスクにおいて不可欠である。
本研究では, 広く異なる構造を持つモジュールから得られた特徴対を用いて意味変化を同定し, 同定するための非対称システマネットワーク(ASN)を提案する。
論文 参考訳(メタデータ) (2020-10-12T13:26:30Z) - A Kernel-Based Approach to Non-Stationary Reinforcement Learning in
Metric Spaces [53.47210316424326]
KeRNSは、非定常マルコフ決定過程におけるエピソード強化学習のためのアルゴリズムである。
我々は、状態-作用空間の被覆次元と時間とともにMDPの総変動にスケールする後悔境界を証明した。
論文 参考訳(メタデータ) (2020-07-09T21:37:13Z) - Plannable Approximations to MDP Homomorphisms: Equivariance under
Actions [72.30921397899684]
学習した表現に作用同値を強制する対照的な損失関数を導入する。
損失が 0 であるとき、決定論的マルコフ決定過程の準同型が存在することを証明している。
本研究では, 決定論的MDPに対して, 抽象MDPの最適方針を元のMDPに引き上げることに成功した。
論文 参考訳(メタデータ) (2020-02-27T08:29:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。