論文の概要: Follow the Object: Curriculum Learning for Manipulation Tasks with
Imagined Goals
- arxiv url: http://arxiv.org/abs/2008.02066v2
- Date: Thu, 11 Nov 2021 07:17:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 17:27:52.135877
- Title: Follow the Object: Curriculum Learning for Manipulation Tasks with
Imagined Goals
- Title(参考訳): オブジェクトをフォローする: 仮想ゴールを用いた操作タスクのカリキュラム学習
- Authors: Ozsel Kilinc, Giovanni Montana
- Abstract要約: 本稿では,想像対象目標の概念を紹介する。
特定の操作タスクに対して、興味のある対象は、まず自分自身で所望の目標位置に到達するように訓練される。
オブジェクトポリシーは、可塑性オブジェクト軌跡の予測モデルを構築するために利用されます。
提案するアルゴリズムであるFollow the Objectは、7つのMuJoCo環境で評価されている。
- 参考スコア(独自算出の注目度): 8.98526174345299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning robot manipulation through deep reinforcement learning in
environments with sparse rewards is a challenging task. In this paper we
address this problem by introducing a notion of imaginary object goals. For a
given manipulation task, the object of interest is first trained to reach a
desired target position on its own, without being manipulated, through
physically realistic simulations. The object policy is then leveraged to build
a predictive model of plausible object trajectories providing the robot with a
curriculum of incrementally more difficult object goals to reach during
training. The proposed algorithm, Follow the Object (FO), has been evaluated on
7 MuJoCo environments requiring increasing degree of exploration, and has
achieved higher success rates compared to alternative algorithms. In
particularly challenging learning scenarios, e.g. where the object's initial
and target positions are far apart, our approach can still learn a policy
whereas competing methods currently fail.
- Abstract(参考訳): 狭い環境下での深層強化学習によるロボット操作の学習は難しい課題である。
本稿では,仮想目標の概念を導入することでこの問題に対処する。
与えられた操作タスクでは、興味のある対象は、物理的に現実的なシミュレーションを通じて、操作されることなく、自分自身で所望の目標位置に到達するように訓練される。
次に、オブジェクトポリシーを利用して、訓練中に到達するより段階的に難しいオブジェクト目標のカリキュラムを提供する、信頼できるオブジェクトトラジェクタの予測モデルを構築する。
提案アルゴリズムであるFollow the Object (FO)は,探索の度合いを高くする必要がある7つのMuJoCo環境で評価され,代替アルゴリズムと比較して高い成功率を達成した。
オブジェクトの初期位置とターゲット位置が遠く離れているような、特に困難な学習シナリオでは、競合するメソッドが現在失敗するのに対して、我々のアプローチは依然としてポリシーを学習することができる。
関連論文リスト
- Learning Extrinsic Dexterity with Parameterized Manipulation Primitives [8.7221770019454]
我々は、オブジェクトのポーズを変えるために環境を利用する一連のアクションを学習する。
我々のアプローチは、オブジェクトとグリップと環境の間の相互作用を利用してオブジェクトの状態を制御することができる。
拘束されたテーブルトップワークスペースから様々な重量,形状,摩擦特性の箱状物体を選別する手法の評価を行った。
論文 参考訳(メタデータ) (2023-10-26T21:28:23Z) - Active Exploration for Robotic Manipulation [40.39182660794481]
本稿では,スパース・リワード型ロボット操作作業における効率的な学習を可能にするモデルに基づく能動探索手法を提案する。
我々は,提案アルゴリズムをシミュレーションおよび実ロボットで評価し,スクラッチから本手法を訓練した。
論文 参考訳(メタデータ) (2022-10-23T18:07:51Z) - Deep Hierarchical Planning from Pixels [86.14687388689204]
Directorは、学習された世界モデルの潜在空間内で計画し、ピクセルから直接階層的な振る舞いを学ぶ方法である。
潜在空間で運用されているにもかかわらず、世界モデルは視覚化のためにゴールを画像にデコードできるため、決定は解釈可能である。
Directorはまた、ビジュアルコントロール、Atariゲーム、DMLabレベルなど、幅広い環境で成功した行動を学ぶ。
論文 参考訳(メタデータ) (2022-06-08T18:20:15Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Landmark Policy Optimization for Object Navigation Task [77.34726150561087]
本研究は,未確認環境において,与えられたセマンティックカテゴリに関連する最も近いオブジェクトにナビゲートするオブジェクトゴールナビゲーションタスクについて研究する。
最近の研究は、エンドツーエンドの強化学習アプローチとモジュールシステムの両方において大きな成果を上げていますが、堅牢で最適なものにするには大きな前進が必要です。
本稿では,これらのランドマークを抽出する手法として,標準的なタスクの定式化とランドマークとしての付加的な地域知識を取り入れた階層的手法を提案する。
論文 参考訳(メタデータ) (2021-09-17T12:28:46Z) - Occlusion-Aware Search for Object Retrieval in Clutter [4.693170687870612]
乱雑な棚から対象物を回収する操作タスクに対処する。
対象物が隠された場合、ロボットはそれを回収するために溝を探索しなければならない。
クローズドループにおけるオクルージョン認識動作を生成するためのデータ駆動型ハイブリッドプランナを提案する。
論文 参考訳(メタデータ) (2020-11-06T13:15:27Z) - Efficient Robotic Object Search via HIEM: Hierarchical Policy Learning
with Intrinsic-Extrinsic Modeling [33.89793938441333]
本稿では,本質的・非本質的な報酬設定を伴う階層的・解釈可能なモデリングに基づく,オブジェクト探索タスクのための新しいポリシー学習パラダイムを提案する。
House3D環境下で行った実験は、我々のモデルで訓練されたロボットが、より最適かつ解釈可能な方法で物体探索タスクを実行できることを示す。
論文 参考訳(メタデータ) (2020-10-16T19:21:38Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。