論文の概要: LASER: Learning a Latent Action Space for Efficient Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2103.15793v1
- Date: Mon, 29 Mar 2021 17:40:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 14:44:41.839491
- Title: LASER: Learning a Latent Action Space for Efficient Reinforcement
Learning
- Title(参考訳): LASER:効率的な強化学習のための潜在行動空間の学習
- Authors: Arthur Allshire, Roberto Mart\'in-Mart\'in, Charles Lin, Shawn Manuel,
Silvio Savarese, Animesh Garg
- Abstract要約: 本稿では,効率的な強化学習のための潜在行動空間の学習方法であるLASERを提案する。
学習したアクション空間マニホールドの可視化で観察したように、アクション空間のより良いアライメントからタスクスペースへの元のアクションスペースと比較して、サンプル効率が向上しました。
- 参考スコア(独自算出の注目度): 41.53297694894669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The process of learning a manipulation task depends strongly on the action
space used for exploration: posed in the incorrect action space, solving a task
with reinforcement learning can be drastically inefficient. Additionally,
similar tasks or instances of the same task family impose latent manifold
constraints on the most effective action space: the task family can be best
solved with actions in a manifold of the entire action space of the robot.
Combining these insights we present LASER, a method to learn latent action
spaces for efficient reinforcement learning. LASER factorizes the learning
problem into two sub-problems, namely action space learning and policy learning
in the new action space. It leverages data from similar manipulation task
instances, either from an offline expert or online during policy learning, and
learns from these trajectories a mapping from the original to a latent action
space. LASER is trained as a variational encoder-decoder model to map raw
actions into a disentangled latent action space while maintaining action
reconstruction and latent space dynamic consistency. We evaluate LASER on two
contact-rich robotic tasks in simulation, and analyze the benefit of policy
learning in the generated latent action space. We show improved sample
efficiency compared to the original action space from better alignment of the
action space to the task space, as we observe with visualizations of the
learned action space manifold. Additional details:
https://pair.toronto.edu/laser
- Abstract(参考訳): 操作タスクを学習するプロセスは、探索に使用されるアクション空間に強く依存する:誤ったアクション空間に置かれ、強化学習でタスクを解くことは、劇的に非効率になる。
さらに、同じタスクファミリーの類似したタスクやインスタンスは、最も効果的なアクション空間に潜在多様体制約を課す:タスクファミリーは、ロボットのアクション空間全体の多様体のアクションで最もよく解ける。
これらの知見を組み合わせることで、効率的な強化学習のための潜在行動空間学習法であるLASERを提案する。
レーザーは学習問題をアクション空間学習と新しいアクション空間におけるポリシー学習という2つのサブ問題に分解する。
同様の操作タスクインスタンスのデータを、オフラインのエキスパートから、あるいはポリシー学習中にオンラインから活用し、これらのトラジェクタから元のアクション空間から潜在アクション空間へのマッピングを学ぶ。
RAERは変動エンコーダ・デコーダモデルとして訓練され、生の動作を非絡み合いの潜在行動空間にマッピングし、動作再構成と潜伏空間の動的一貫性を維持する。
シミュレーションにおける2つの接触の多いロボットタスクに対するLASERの評価を行い、生成した潜在行動空間におけるポリシー学習の利点を分析した。
学習した行動空間多様体の可視化により,動作空間のアライメントが向上し,タスク空間へのアライメントが向上するのに対し,サンプル効率は元の行動空間と比較して向上した。
詳細: https://pair.toronto.edu/laser
関連論文リスト
- SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation [58.14969377419633]
タスクをより小さな学習サブプロブレムに分解し、第2に模倣と強化学習を組み合わせてその強みを最大化するシステムであるspireを提案する。
我々は、模倣学習、強化学習、計画を統合する従来の手法よりも平均タスク性能が35%から50%向上していることを発見した。
論文 参考訳(メタデータ) (2024-10-23T17:42:07Z) - Empowering Large Language Model Agents through Action Learning [85.39581419680755]
大規模言語モデル(LLM)エージェントは最近ますます関心を集めているが、試行錯誤から学ぶ能力は限られている。
我々は、経験から新しい行動を学ぶ能力は、LLMエージェントの学習の進歩に欠かせないものであると論じる。
我々はPython関数の形式でアクションを作成し改善するための反復学習戦略を備えたフレームワークLearningActを紹介した。
論文 参考訳(メタデータ) (2024-02-24T13:13:04Z) - MAN: Multi-Action Networks Learning [0.0]
本稿では,Multi-Action Networks (MAN) Learningと呼ばれる深層強化学習アルゴリズムを紹介する。
本稿では,アクション空間を2つのコンポーネントに分割し,各サブアクションに対して価値ニューラルネットワークを作成することを提案する。
そして、MANは時間差学習を用いてネットワークを同期的にトレーニングする。
論文 参考訳(メタデータ) (2022-09-19T20:13:29Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Learning Routines for Effective Off-Policy Reinforcement Learning [0.0]
このような制約を効果的に緩和する強化学習のための新しい枠組みを提案する。
我々のフレームワーク内では、エージェントは日常的な空間上で効果的な行動を学ぶ。
その結果,各エピソードごとの環境との相互作用を少なくしながら,関連するパフォーマンス改善が得られることがわかった。
論文 参考訳(メタデータ) (2021-06-05T18:41:57Z) - Motion Planner Augmented Reinforcement Learning for Robot Manipulation
in Obstructed Environments [22.20810568845499]
本稿では,RLエージェントの動作空間を移動プランナの長期計画能力で拡張する動きプランナ拡張RL(MoPA-RL)を提案する。
動作の大きさに基づいて,動作を直接実行し,動作プランナを起動するアプローチを円滑に移行する。
実験により、MoPA-RLは学習効率を高め、より高速な探索をもたらし、より安全なポリシーをもたらすことが示されている。
論文 参考訳(メタデータ) (2020-10-22T17:59:09Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z) - Weakly-Supervised Reinforcement Learning for Controllable Behavior [126.04932929741538]
強化学習(Reinforcement Learning、RL)は、タスクを解決するために行動を取るための学習のための強力なフレームワークである。
多くの設定において、エージェントは、現在解決するよう求められている単一のタスクに対して、不可能なほど大きなタスク空間を放棄しなければならない。
我々は,この意味論的意味のあるタスクのサブスペースを,非意味的な「チャフ」タスクの巨大な空間から自動的に切り離すために,弱い監督を利用するフレームワークを導入する。
論文 参考訳(メタデータ) (2020-04-06T17:50:28Z) - Action Space Shaping in Deep Reinforcement Learning [7.508516104014916]
強化学習は、ビデオゲームを含む様々な学習環境における訓練エージェントで成功している。
我々は,これらの行動空間の修正について,ビデオゲーム環境における広範な実験を行うことで,洞察を得ることを目指している。
その結果、ドメイン固有のアクションの削除と継続的なアクションの離散化が、学習の成功に不可欠であることを示唆した。
論文 参考訳(メタデータ) (2020-04-02T13:25:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。