論文の概要: Coarse-to-Fine Q-attention with Learned Path Ranking
- arxiv url: http://arxiv.org/abs/2204.01571v1
- Date: Mon, 4 Apr 2022 15:23:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 14:03:49.789084
- Title: Coarse-to-Fine Q-attention with Learned Path Ranking
- Title(参考訳): 学習経路ランキング付き粗大なQ-Attention
- Authors: Stephen James and Pieter Abbeel
- Abstract要約: 本稿では,エンドエフェクタのゴールポーズを受け入れる手法であるLearned Path Ranking(LPR)を提案し,目標獲得パスのセットのランク付けを学習する。
16のRLBenchタスクにまたがるアプローチのベンチマークに加えて、実世界のタスク、タブララザも10~15分で3つのデモで学習します。
- 参考スコア(独自算出の注目度): 95.00518278458908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Learned Path Ranking (LPR), a method that accepts an end-effector
goal pose, and learns to rank a set of goal-reaching paths generated from an
array of path generating methods, including: path planning, Bezier curve
sampling, and a learned policy. The core idea being that each of the path
generation modules will be useful in different tasks, or at different stages in
a task. When LPR is added as an extension to C2F-ARM, our new system,
C2F-ARM+LPR, retains the sample efficiency of its predecessor, while also being
able to accomplish a larger set of tasks; in particular, tasks that require
very specific motions (e.g. opening toilet seat) that need to be inferred from
both demonstrations and exploration data. In addition to benchmarking our
approach across 16 RLBench tasks, we also learn real-world tasks, tabula rasa,
in 10-15 minutes, with only 3 demonstrations.
- Abstract(参考訳): 本稿では,エンドエフェクタの目標ポーズを受け入れる手法であるLearned Path Ranking(LPR)を提案し,パス計画,ベジエ曲線サンプリング,学習方針など,一連の経路生成手法から生成される一連の目標到達経路のランク付けを学習する。
コアとなる考え方は、各パス生成モジュールが異なるタスク、またはタスクの異なるステージで有用である、ということです。
LPRがC2F-ARMの拡張として追加されたとき、我々の新しいシステムであるC2F-ARM+LPRは、前者のサンプル効率を維持しつつ、より大きなタスクセットを達成することができる。
16のRLBenchタスクにまたがるアプローチのベンチマークに加えて、実世界のタスク、タブララザも10~15分で3つのデモで学習します。
関連論文リスト
- Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - CLUTR: Curriculum Learning via Unsupervised Task Representation Learning [130.79246770546413]
CLUTRは、タスク表現とカリキュラム学習を2段階最適化に分離する、新しいカリキュラム学習アルゴリズムである。
CLUTRは、CarRacingとナビゲーション環境における一般化とサンプル効率の観点から、原則的かつ一般的なUED手法であるPAIREDよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-19T01:45:29Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - C-Learning: Horizon-Aware Cumulative Accessibility Estimation [29.588146016880284]
本研究では,所定の地平線内の所定の状態から目標の到達可能性を測定する累積アクセシビリティ関数の概念を導入する。
これらの関数は、オフライン相互作用から学習できる繰り返し関係に従うことを示す。
我々は,複数ゴールの離散的かつ連続的な制御タスクの集合に対するアプローチを評価する。
論文 参考訳(メタデータ) (2020-11-24T20:34:31Z) - Attentive Feature Reuse for Multi Task Meta learning [17.8055398673228]
複数のタスクの同時学習のための新しいアルゴリズムを開発した。
本稿では,タスク毎に動的にネットワークを専門化するためのアテンション機構を提案する。
提案手法は,従来は目に見えなかった新しい環境における性能を向上させる。
論文 参考訳(メタデータ) (2020-06-12T19:33:11Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。