論文の概要: Geometric Active Exploration in Markov Decision Processes: the Benefit of Abstraction
- arxiv url: http://arxiv.org/abs/2407.13364v1
- Date: Thu, 18 Jul 2024 10:15:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 15:50:32.144235
- Title: Geometric Active Exploration in Markov Decision Processes: the Benefit of Abstraction
- Title(参考訳): マルコフ決定過程における幾何学的アクティブ探索--抽象の利点
- Authors: Riccardo De Santi, Federico Arangath Joseph, Noah Liniger, Mirco Mutti, Andreas Krause,
- Abstract要約: 我々は、MDP準同型形式を用いて、既知の幾何学的構造を抽象化によって活用する方法を示す。
また、サンプル効率のホモモルフィズムによる抽象化の利点を正式に把握する最初の分析も提示する。
本研究では, 科学的発見の課題に起因した環境において, 理論的, 実験的に解析するGeometric Active Exploration (GAE) アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 41.22779249609767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can a scientist use a Reinforcement Learning (RL) algorithm to design experiments over a dynamical system's state space? In the case of finite and Markovian systems, an area called Active Exploration (AE) relaxes the optimization problem of experiments design into Convex RL, a generalization of RL admitting a wider notion of reward. Unfortunately, this framework is currently not scalable and the potential of AE is hindered by the vastness of experiment spaces typical of scientific discovery applications. However, these spaces are often endowed with natural geometries, e.g., permutation invariance in molecular design, that an agent could leverage to improve the statistical and computational efficiency of AE. To achieve this, we bridge AE and MDP homomorphisms, which offer a way to exploit known geometric structures via abstraction. Towards this goal, we make two fundamental contributions: we extend MDP homomorphisms formalism to Convex RL, and we present, to the best of our knowledge, the first analysis that formally captures the benefit of abstraction via homomorphisms on sample efficiency. Ultimately, we propose the Geometric Active Exploration (GAE) algorithm, which we analyse theoretically and experimentally in environments motivated by problems in scientific discovery.
- Abstract(参考訳): 科学者はReinforcement Learning (RL)アルゴリズムを使って、動的システムの状態空間上での実験を設計できるだろうか?
有限系とマルコフ系の場合、Active Exploration (AE) と呼ばれる領域は、実験設計の最適化問題を緩和して、より広い報酬の概念を認めるRLの一般化であるConvex RL(英語版)へと導く。
残念ながら、このフレームワークは現在拡張性がなく、AEの可能性は科学的な発見に典型的な実験空間の広大さによって妨げられている。
しかしながら、これらの空間には自然測地(例えば分子設計における置換不変性)が与えられ、エージェントはAEの統計的および計算的効率を改善することができる。
これを実現するために、AE と MDP の準同型をブリッジし、抽象を通して既知の幾何学的構造を利用する方法を提供する。
この目的に向けて、我々は MDP 準同型を Convex RL に拡張し、我々の知る限りでは、サンプル効率に関する準同型を通して抽象の利益を公式に捉える最初の分析である。
最終的に、科学的発見における問題によって動機付けられた環境において、理論的、実験的に解析するGeometric Active Exploration (GAE)アルゴリズムを提案する。
関連論文リスト
- Spherinator and HiPSter: Representation Learning for Unbiased Knowledge Discovery from Simulations [0.0]
我々は、幅広いシミュレーションから有用な科学的洞察を得るための、新しい、偏見のない、機械学習に基づくアプローチについて説明する。
我々の概念は、低次元空間におけるデータのコンパクトな表現を学習するために非線形次元削減を適用することに基づいている。
本稿では、回転不変な超球面変動畳み込み自己エンコーダを用いて、潜時空間の電力分布を利用して、IllustrisTNGシミュレーションから銀河を訓練したプロトタイプを提案する。
論文 参考訳(メタデータ) (2024-06-06T07:34:58Z) - LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.39722070734737]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。
本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。
法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文 参考訳(メタデータ) (2024-05-16T03:04:10Z) - Constrained Exploration via Reflected Replica Exchange Stochastic Gradient Langevin Dynamics [10.290462113848054]
ReSGLDは、大規模データセットの非二乗学習タスクに有効なツールである。
制約付きマルチモーダル分布と画像分類におけるシミュレーション効率の役割について検討する。
論文 参考訳(メタデータ) (2024-05-13T15:25:03Z) - Exploiting Multiple Abstractions in Episodic RL via Reward Shaping [23.61187560936501]
対象領域の下位にあるマルコフ決定過程(MDP)の抽象層の線形階層について考察する。
本稿では,抽象レベルで得られる解を用いて,より具体的なMDPに報酬を与える方法を提案する。
論文 参考訳(メタデータ) (2023-02-28T13:22:29Z) - Reinforcement Learning in Factored Action Spaces using Tensor
Decompositions [92.05556163518999]
本稿では, テンソル分解を用いた大規模因子化行動空間における強化学習(RL)のための新しい解を提案する。
我々は,協調型マルチエージェント強化学習シナリオを模範として用いた。
論文 参考訳(メタデータ) (2021-10-27T15:49:52Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - Discovering Latent Causal Variables via Mechanism Sparsity: A New
Principle for Nonlinear ICA [81.4991350761909]
ICA(Independent component analysis)は、この目的を定式化し、実用的な応用のための推定手順を提供する手法の集合を指す。
潜伏変数は、潜伏機構をスパースに正則化すれば、置換まで復元可能であることを示す。
論文 参考訳(メタデータ) (2021-07-21T14:22:14Z) - Geometric Entropic Exploration [52.67987687712534]
離散領域と連続領域の両方における状態ビジットの幾何認識シャノンエントロピーを最大化する新しいアルゴリズムを導入する。
私たちの重要な理論的貢献は、単純で新しいノイズコントラストの客観的関数を最適化する牽引可能な問題としてジオメトリ認識MSVE探索を鋳造することです。
実験では,他の深部RL探査手法と比較して,疎度な報酬を伴う複数のRL問題の解法におけるGEMの効率性を示した。
論文 参考訳(メタデータ) (2021-01-06T14:15:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。