論文の概要: Planning Immediate Landmarks of Targets for Model-Free Skill Transfer
across Agents
- arxiv url: http://arxiv.org/abs/2212.09033v1
- Date: Sun, 18 Dec 2022 08:03:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 17:04:07.138938
- Title: Planning Immediate Landmarks of Targets for Model-Free Skill Transfer
across Agents
- Title(参考訳): エージェント間のモデルフリースキル伝達のためのターゲットの即時ランドマーク計画
- Authors: Minghuan Liu, Zhengbang Zhu, Menghui Zhu, Yuzheng Zhuang, Weinan
Zhang, Jianye Hao
- Abstract要約: 我々はPILoT、即時ターゲットのランドマーク計画を提案する。
PILoTはゴール条件のステートプランナーを学習し、ゴールプランナーを蒸留してモデルなしのスタイルで即時ランドマークを計画する。
PILoTは,アクション空間やダイナミックスを横断する数発のショット転送など,様々なトランスファーの課題に対して有効であることを示す。
- 参考スコア(独自算出の注目度): 34.56191646231944
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In reinforcement learning applications like robotics, agents usually need to
deal with various input/output features when specified with different
state/action spaces by their developers or physical restrictions. This
indicates unnecessary re-training from scratch and considerable sample
inefficiency, especially when agents follow similar solution steps to achieve
tasks. In this paper, we aim to transfer similar high-level goal-transition
knowledge to alleviate the challenge. Specifically, we propose PILoT, i.e.,
Planning Immediate Landmarks of Targets. PILoT utilizes the universal decoupled
policy optimization to learn a goal-conditioned state planner; then, distills a
goal-planner to plan immediate landmarks in a model-free style that can be
shared among different agents. In our experiments, we show the power of PILoT
on various transferring challenges, including few-shot transferring across
action spaces and dynamics, from low-dimensional vector states to image inputs,
from simple robot to complicated morphology; and we also illustrate a zero-shot
transfer solution from a simple 2D navigation task to the harder Ant-Maze task.
- Abstract(参考訳): ロボティクスのような強化学習アプリケーションでは、エージェントは通常、開発者や物理的制約によって異なる状態/アクション空間で指定された場合、さまざまな入出力機能を扱う必要がある。
これは、スクラッチからの不要な再訓練とかなりのサンプル非効率、特にエージェントがタスクを達成するための同様のソリューションステップに従う場合である。
本稿では,類似のハイレベルな目標移行知識を伝達し,課題を軽減することを目的とする。
具体的には、PILoT、即時ターゲットのランドマーク計画を提案する。
PILoTは、共通の分離されたポリシー最適化を利用して、ゴール条件付き状態プランナーを学習し、それからゴールプランナーを蒸留して、異なるエージェント間で共有可能なモデルフリースタイルで即時ランドマークを計画する。
実験では,単純なロボットから複雑な形態まで,アクション空間やダイナミクスを横断する少数ショット移動,画像入力など,様々なトランスファー課題に対するパイロットの力を示すとともに,単純な2dナビゲーションタスクからより難しいant-mazeタスクへのゼロショット転送ソリューションを例示する。
関連論文リスト
- A Meta-Engine Framework for Interleaved Task and Motion Planning using Topological Refinements [51.54559117314768]
タスク・アンド・モーション・プランニング(タスク・アンド・モーション・プランニング、TAMP)は、自動化された計画問題の解決策を見つけるための問題である。
本稿では,TAMP問題のモデル化とベンチマークを行うための,汎用的でオープンソースのフレームワークを提案する。
移動エージェントと複数のタスク状態依存障害を含むTAMP問題を解決する革新的なメタ技術を導入する。
論文 参考訳(メタデータ) (2024-08-11T14:57:57Z) - RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory
Sketches [74.300116260004]
一般化は、ロバストなロボット学習システムにとって最も重要なデシダータの1つである。
粗い軌道スケッチを用いたポリシー条件付け手法を提案する。
RT-Trajectoryは言語条件や目標条件よりも幅広いタスクを実行できることを示す。
論文 参考訳(メタデータ) (2023-11-03T15:31:51Z) - Efficient Skill Acquisition for Complex Manipulation Tasks in Obstructed
Environments [18.348489257164356]
本稿では,オブジェクト指向生成モデル(OCGM)を多目的ゴール識別に活用する,効率的なスキル獲得システムを提案する。
OCGMは、新しいシーンでワンショットターゲットオブジェクトの識別と再識別を可能にし、MPは障害物を避けながらロボットを対象オブジェクトに誘導することができる。
論文 参考訳(メタデータ) (2023-03-06T18:49:59Z) - Long-HOT: A Modular Hierarchical Approach for Long-Horizon Object
Transport [83.06265788137443]
我々は、時間的拡張ナビゲーションのための新しいオブジェクトトランスポートタスクと新しいモジュラーフレームワークを提案することで、長距離探査と航法を具現化する上で重要な課題に対処する。
私たちの最初の貢献は、深層探査と長期計画に焦点を当てた新しいLong-HOT環境の設計である。
重み付けされたフロンティアの助けを借りて探索を行うために,シーンのトポロジカルグラフを構築するモジュラー階層輸送ポリシー(HTP)を提案する。
論文 参考訳(メタデータ) (2022-10-28T05:30:49Z) - Learning Efficient Abstract Planning Models that Choose What to Predict [28.013014215441505]
多くのロボティクス分野において,既存の記号演算子学習アプローチが不足していることが示されている。
これは主に、抽象状態におけるすべての観測された変化を正確に予測する演算子を学習しようとするためである。
我々は,特定の目標を達成するための抽象的計画に必要な変化をモデル化するだけで,「予測すべきものを選択する」演算子を学習することを提案する。
論文 参考訳(メタデータ) (2022-08-16T13:12:59Z) - Diversity-based Trajectory and Goal Selection with Hindsight Experience
Replay [8.259694128526112]
我々はHER(DTGSH)を用いた多様性に基づく軌道と目標選択を提案する。
提案手法は,全てのタスクにおいて,他の最先端手法よりも高速に学習し,高い性能を達成することができることを示す。
論文 参考訳(メタデータ) (2021-08-17T21:34:24Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。