論文の概要: Learning Parsimonious Dynamics for Generalization in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2209.14781v1
- Date: Thu, 29 Sep 2022 13:45:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 17:38:00.641155
- Title: Learning Parsimonious Dynamics for Generalization in Reinforcement
Learning
- Title(参考訳): 強化学習における一般化のための学習パリモニカルダイナミクス
- Authors: Tankred Saanum and Eric Schulz
- Abstract要約: 擬似力学を学習するモデルを開発する。
政策学習と計画タスクの多種多様性を考慮した潜在力学モデルの有用性を実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans are skillful navigators: We aptly maneuver through new places, realize
when we are back at a location we have seen before, and can even conceive of
shortcuts that go through parts of our environments we have never visited.
Current methods in model-based reinforcement learning on the other hand
struggle with generalizing about environment dynamics out of the training
distribution. We argue that two principles can help bridge this gap: latent
learning and parsimonious dynamics. Humans tend to think about environment
dynamics in simple terms -- we reason about trajectories not in reference to
what we expect to see along a path, but rather in an abstract latent space,
containing information about the places' spatial coordinates. Moreover, we
assume that moving around in novel parts of our environment works the same way
as in parts we are familiar with. These two principles work together in tandem:
it is in the latent space that the dynamics show parsimonious characteristics.
We develop a model that learns such parsimonious dynamics. Using a variational
objective, our model is trained to reconstruct experienced transitions in a
latent space using locally linear transformations, while encouraged to invoke
as few distinct transformations as possible. Using our framework, we
demonstrate the utility of learning parsimonious latent dynamics models in a
range of policy learning and planning tasks.
- Abstract(参考訳): 人間は熟練したナビゲーターです。私たちは新しい場所を適切に操作し、今まで見たことのない場所に戻ったときに気づき、これまで訪れたことのない環境の一部を通るショートカットを思いつくことができます。
一方、モデルに基づく強化学習における現在の手法は、トレーニング分布外における環境力学の一般化に苦慮している。
このギャップを埋めるには2つの原則がある,と我々は主張する。
人間は環境力学を単純な言葉で考える傾向がある -- 私たちは、経路に沿って見るものではなく、場所の空間座標に関する情報を含む抽象的なラテント空間における軌道について推論する。
さらに、私たちの環境の新たな場所での移動は、私たちが慣れ親しんだ部分と同じように働くと仮定する。
これらの2つの原理は一緒に働く: 力学が相似的な性質を示すのは、潜在空間にある。
このようなパシモニアス力学を学習するモデルを開発する。
変分的目的を用いて, 局所線形変換を用いた潜在空間における経験的遷移の再構築を訓練し, 極力明確な変換の実施を推奨した。
本フレームワークを用いて,様々な政策学習および計画タスクにおいて,並列潜在ダイナミクスモデルを学習するの有用性を実証する。
関連論文リスト
- Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。
VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。
本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-28T17:53:09Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Latent Traversals in Generative Models as Potential Flows [113.4232528843775]
我々は,学習された動的ポテンシャルランドスケープを持つ潜在構造をモデル化することを提案する。
物理、最適輸送、神経科学にインスパイアされたこれらの潜在的景観は、物理的に現実的な偏微分方程式として学習される。
本手法は,最先端のベースラインよりも定性的かつ定量的に歪んだ軌跡を実現する。
論文 参考訳(メタデータ) (2023-04-25T15:53:45Z) - Real-World Humanoid Locomotion with Reinforcement Learning [92.85934954371099]
実世界におけるヒューマノイド移動に対する完全学習型アプローチを提案する。
コントローラーは様々な屋外の地形の上を歩けるし、外乱に対して頑丈で、状況に応じて適応できる。
論文 参考訳(メタデータ) (2023-03-06T18:59:09Z) - Bayesian Floor Field: Transferring people flow predictions across environments [8.691309696914882]
本研究では,環境学の知識と人間の軌跡からの観察を組み合わせ,動的に学習する新しい手法を提案する。
歩行者の観察を必要とせずに初期移行モデルを構築するために、被占領者に基づくディープ・フォワードが使用される。
我々は,本モデルがデータ効率を向上し,実大規模環境にまたがる一般化を実現する能力を示す。
論文 参考訳(メタデータ) (2022-08-23T10:09:40Z) - Reactive Motion Generation on Learned Riemannian Manifolds [14.325005233326497]
人間の操作者が示す複雑な動作パターンに基づいて動作スキルを生成する方法を示す。
そこで本研究では,学習多様体を変形させることにより,オンザフライのエンドエフェクタ/マルチランブ障害物回避を容易にする手法を提案する。
7-DoFロボットマニピュレータを用いて,タスク空間と関節空間のシナリオにおいて,我々のアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2022-03-15T10:28:16Z) - GEM: Group Enhanced Model for Learning Dynamical Control Systems [78.56159072162103]
サンプルベースの学習が可能な効果的なダイナミクスモデルを構築します。
リー代数ベクトル空間上のダイナミクスの学習は、直接状態遷移モデルを学ぶよりも効果的であることを示す。
この研究は、ダイナミクスの学習とリー群の性質の関連性を明らかにし、新たな研究の方向への扉を開く。
論文 参考訳(メタデータ) (2021-04-07T01:08:18Z) - Learning Reactive and Predictive Differentiable Controllers for
Switching Linear Dynamical Models [7.653542219337937]
専門家による実証から複合ダイナミクス行動を学習するためのフレームワークを提示する。
システムダイナミクスの近接近似としてスイッチング条件にエンコードされた接点を持つスイッチング線形ダイナミクスモデルを学ぶ。
次に、データ効率のよい制御学習のための微分可能なポリシークラスとして離散時間LQRを使用し、制御戦略を開発する。
論文 参考訳(メタデータ) (2021-03-26T04:40:24Z) - Robot Navigation in Constrained Pedestrian Environments using
Reinforcement Learning [32.454250811667904]
歩行者のまわりをスムーズに移動することは、人間環境に展開する移動ロボットに必要な能力である。
移動歩行者の存在に動的に適応できる政策を学習するための強化学習に基づくアプローチを提案する。
2つの実環境の3D再構成に学習方針の移転を示す。
論文 参考訳(メタデータ) (2020-10-16T19:40:08Z) - Learning to Move with Affordance Maps [57.198806691838364]
物理的な空間を自律的に探索し、ナビゲートする能力は、事実上あらゆる移動型自律エージェントの基本的な要件である。
従来のSLAMベースの探索とナビゲーションのアプローチは、主にシーン幾何学の活用に重点を置いている。
学習可能な余剰マップは探索と航法の両方において従来のアプローチの強化に利用でき、性能が大幅に向上することを示します。
論文 参考訳(メタデータ) (2020-01-08T04:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。