論文の概要: Koopman Q-learning: Offline Reinforcement Learning via Symmetries of
Dynamics
- arxiv url: http://arxiv.org/abs/2111.01365v1
- Date: Tue, 2 Nov 2021 04:32:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 14:01:46.529881
- Title: Koopman Q-learning: Offline Reinforcement Learning via Symmetries of
Dynamics
- Title(参考訳): Koopman Q-learning: ダイナミクスの対称性によるオフライン強化学習
- Authors: Matthias Weissenbacher, Samarth Sinha, Animesh Garg, Yoshinobu
Kawahara
- Abstract要約: オフライン強化学習は、大規模なデータセットを活用して、環境とのインタラクションなしにポリシーをトレーニングする。
現在のアルゴリズムは、トレーニングデータセットに過度に適合し、環境のアウト・オブ・ディストリビューションの一般化にデプロイすると、パフォーマンスが悪くなります。
我々は、システムの基盤となる力学の対称性を推測できるクープマン潜在表現を学習する。
我々は,D4RL,Metaworld,Robosuiteなどのオフライン強化学習タスクとデータセットをベンチマークで評価した。
- 参考スコア(独自算出の注目度): 29.219095364935885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning leverages large datasets to train policies
without interactions with the environment. The learned policies may then be
deployed in real-world settings where interactions are costly or dangerous.
Current algorithms over-fit to the training dataset and as a consequence
perform poorly when deployed to out-of-distribution generalizations of the
environment. We aim to address these limitations by learning a Koopman latent
representation which allows us to infer symmetries of the system's underlying
dynamic. The latter is then utilized to extend the otherwise static offline
dataset during training; this constitutes a novel data augmentation framework
which reflects the system's dynamic and is thus to be interpreted as an
exploration of the environments phase space. To obtain the symmetries we employ
Koopman theory in which nonlinear dynamics are represented in terms of a linear
operator acting on the space of measurement functions of the system and thus
symmetries of the dynamics may be inferred directly. We provide novel
theoretical results on the existence and nature of symmetries relevant for
control systems such as reinforcement learning settings. Moreover, we
empirically evaluate our method on several benchmark offline reinforcement
learning tasks and datasets including D4RL, Metaworld and Robosuite and find
that by using our framework we consistently improve the state-of-the-art for
Q-learning methods.
- Abstract(参考訳): オフライン強化学習は、大規模なデータセットを活用して、環境とのインタラクションなしにポリシーをトレーニングする。
学習したポリシーは、対話が高価か危険である現実世界に展開される。
現在のアルゴリズムは、トレーニングデータセットに過度に適合し、結果として、環境の分散の一般化にデプロイする場合、パフォーマンスが低下する。
我々は、システムの基盤となるダイナミクスの対称性を推測できるkoopmanの潜在表現を学習することで、これらの制限に対処することを目指している。
後者はトレーニング中に静的なオフラインデータセットを拡張するために使用される。これはシステムのダイナミックさを反映し、環境フェーズ空間の探索として解釈される新しいデータ拡張フレームワークを構成する。
対称性を得るためには、非線形力学を系の計測関数の空間に作用する線形作用素の項で表現し、従って力学の対称性を直接推測することができるkoopman理論を用いる。
強化学習の設定などの制御系に関連する対称性の存在と性質に関する新しい理論的結果を提供する。
さらに,d4rl,metaworld,robosuiteを含むいくつかのベンチマークオフライン強化学習タスクとデータセットにおいて,本手法を実証的に評価し,q-learning手法の最先端を一貫して改善することを見出した。
関連論文リスト
- Scalable Offline Reinforcement Learning for Mean Field Games [6.8267158622784745]
Off-MMDは、純粋なオフラインデータを用いて平均フィールドゲームにおける平衡ポリシーを近似する新しい平均フィールドRLアルゴリズムである。
我々のアルゴリズムは複雑な環境にスケールし、群衆探索やナビゲーションといったベンチマークタスクで強いパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-23T14:16:34Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Leveraging Neural Koopman Operators to Learn Continuous Representations
of Dynamical Systems from Scarce Data [0.0]
我々は、本質的に連続的な方法でダイナミクスを表現する新しいディープ・クープマン・フレームワークを提案する。
このフレームワークは、限られたトレーニングデータのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2023-03-13T10:16:19Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z) - Supervised DKRC with Images for Offline System Identification [77.34726150561087]
現代の力学系はますます非線形で複雑なものになりつつある。
予測と制御のためのコンパクトで包括的な表現でこれらのシステムをモデル化するフレームワークが必要である。
本手法は,教師付き学習手法を用いてこれらの基礎関数を学習する。
論文 参考訳(メタデータ) (2021-09-06T04:39:06Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - GELATO: Geometrically Enriched Latent Model for Offline Reinforcement
Learning [54.291331971813364]
オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。
本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。
提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
論文 参考訳(メタデータ) (2021-02-22T19:42:40Z) - Using Data Assimilation to Train a Hybrid Forecast System that Combines
Machine-Learning and Knowledge-Based Components [52.77024349608834]
利用可能なデータがノイズの多い部分測定の場合,カオスダイナミクスシステムのデータ支援予測の問題を検討する。
動的システムの状態の部分的測定を用いることで、不完全な知識ベースモデルによる予測を改善するために機械学習モデルを訓練できることを示す。
論文 参考訳(メタデータ) (2021-02-15T19:56:48Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - PLAS: Latent Action Space for Offline Reinforcement Learning [18.63424441772675]
オフライン強化学習の目標は、環境とのさらなる相互作用なしに、固定データセットからポリシーを学ぶことである。
既存のオフプライシアルゴリズムでは、アウト・オブ・ディストリビューションアクションによる外挿エラーによる静的データセットのパフォーマンスが制限されている。
提案手法は,各種の連続制御タスクと異なる種類のデータセットに対して,一貫して競合性能を提供することを示す。
論文 参考訳(メタデータ) (2020-11-14T03:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。