論文の概要: Goal-conditioned Batch Reinforcement Learning for Rotation Invariant
Locomotion
- arxiv url: http://arxiv.org/abs/2004.08356v1
- Date: Fri, 17 Apr 2020 17:25:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 10:06:56.953311
- Title: Goal-conditioned Batch Reinforcement Learning for Rotation Invariant
Locomotion
- Title(参考訳): 回転不変運動に対する目標条件付きバッチ強化学習
- Authors: Aditi Mavalankar
- Abstract要約: 本稿では,目標条件付きロコモーションポリシーをバッチRL設定で学習するための新しいアプローチを提案する。
移動タスクでは、エージェントが一方向にまっすぐ歩くために学習したポリシーを用いてデータ収集に変換される。
提案手法は,Ant,Humanoid,Minitaurといった3次元移動エージェントにおいて,既存のRLアルゴリズムよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 1.52292571922932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel approach to learn goal-conditioned policies for locomotion
in a batch RL setting. The batch data is collected by a policy that is not
goal-conditioned. For the locomotion task, this translates to data collection
using a policy learnt by the agent for walking straight in one direction, and
using that data to learn a goal-conditioned policy that enables the agent to
walk in any direction. The data collection policy used should be invariant to
the direction the agent is facing i.e. regardless of its initial orientation,
the agent should take the same actions to walk forward. We exploit this
property to learn a goal-conditioned policy using two key ideas: (1) augmenting
data by generating trajectories with the same actions in different directions,
and (2) learning an encoder that enforces invariance between these rotated
trajectories with a Siamese framework. We show that our approach outperforms
existing RL algorithms on 3-D locomotion agents like Ant, Humanoid and
Minitaur.
- Abstract(参考訳): 本稿では,目標条件付きロコモーションポリシーをバッチRL設定で学習するための新しいアプローチを提案する。
バッチデータは、目標条件のないポリシーによって収集される。
移動タスクでは、エージェントが一方向にまっすぐ歩くために学んだポリシーを使用してデータ収集を行い、そのデータを使ってエージェントが任意の方向に歩くことができる目標条件のポリシーを学ぶ。
使用するデータ収集ポリシは、エージェントが直面している方向、すなわち、最初の方向に関わらず、エージェントが前進するために同じアクションを取る必要がある。
この特性を利用して,(1)同一動作の軌跡を異なる方向に生成してデータを増やすこと,(2)シームズフレームワークを用いて回転した軌跡間の不変性を強制するエンコーダを学習すること,の2つのキーアイデアを用いて目標条件ポリシーを学習する。
提案手法はant,humanoid,minitaurなどの3次元ロコモーションエージェントにおいて既存のrlアルゴリズムよりも優れていることを示す。
関連論文リスト
- Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - Subequivariant Graph Reinforcement Learning in 3D Environments [34.875774768800966]
本稿では,3次元環境における変分グラフRL(Subequivariant Graph RL)という,形態に依存しないRLの新たなセットアップを提案する。
具体的には、まず3D空間でより実用的で挑戦的なベンチマークを新たに導入する。
拡張状態-作用空間上のポリシーを最適化するために,幾何対称性を注入することを提案する。
論文 参考訳(メタデータ) (2023-05-30T11:34:57Z) - TD3 with Reverse KL Regularizer for Offline Reinforcement Learning from
Mixed Datasets [118.22975463000928]
エージェントが複数の行動ポリシーをロールアウトすることで収集したデータセットから学習する必要があるオフライン強化学習(RL)について考察する。
1) RL信号の最適化と行動クローニング(BC)信号の最適なトレードオフは、異なる行動ポリシーによって引き起こされる行動カバレッジの変化によって異なる状態に変化する。
本稿では,TD3アルゴリズムに基づくBC正規化器として,適応重み付き逆KL(Kulback-Leibler)分散を用いることにより,両課題に対処する。
論文 参考訳(メタデータ) (2022-12-05T09:36:23Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Learning Policies for Continuous Control via Transition Models [2.831332389089239]
ロボット制御では、腕のエンドエフェクターを目標位置または目標軌道に沿って移動させるには、正確な前方および逆モデルが必要である。
相互作用から遷移(前方)モデルを学習することで、償却されたポリシーの学習を促進することができることを示す。
論文 参考訳(メタデータ) (2022-09-16T16:23:48Z) - Traffic Agent Trajectory Prediction Using Social Convolution and
Attention Mechanism [57.68557165836806]
本稿では,自律走行車周辺における標的エージェントの軌道予測モデルを提案する。
対象エージェントの履歴トラジェクトリをアテンションマスクとしてエンコードし、ターゲットエージェントとその周辺エージェント間の対話関係をエンコードするソーシャルマップを構築する。
提案手法の有効性を検証するため,提案手法を公開データセット上の複数の手法と比較し,20%の誤差低減を実現した。
論文 参考訳(メタデータ) (2020-07-06T03:48:08Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。