論文の概要: Towards Exploiting Geometry and Time for FastOff-Distribution Adaptation
in Multi-Task RobotLearning
- arxiv url: http://arxiv.org/abs/2106.13237v1
- Date: Thu, 24 Jun 2021 02:13:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 13:01:32.707058
- Title: Towards Exploiting Geometry and Time for FastOff-Distribution Adaptation
in Multi-Task RobotLearning
- Title(参考訳): マルチタスクロボット学習における高速Off-Distribution Adaptationの展開と時間
- Authors: K.R. Zentner, Ryan Julian, Ujjwal Puri, Yulun Zhang, Gaurav Sukhatme
- Abstract要約: トレーニング済みタスクのベースセットに対するポリシーをトレーニングし、次に、新しいオフディストリビューションタスクに適応する実験を行います。
低複雑さのターゲットポリシークラス、ブラックボックス前の基本ポリシー、および単純な最適化アルゴリズムを組み合わせることで、ベースタスクの配布外の新しいタスクを取得できることがわかりました。
- 参考スコア(独自算出の注目度): 17.903462188570067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore possible methods for multi-task transfer learning which seek to
exploit the shared physical structure of robotics tasks. Specifically, we train
policies for a base set of pre-training tasks, then experiment with adapting to
new off-distribution tasks, using simple architectural approaches for re-using
these policies as black-box priors. These approaches include learning an
alignment of either the observation space or action space from a base to a
target task to exploit rigid body structure, and methods for learning a
time-domain switching policy across base tasks which solves the target task, to
exploit temporal coherence. We find that combining low-complexity target policy
classes, base policies as black-box priors, and simple optimization algorithms
allows us to acquire new tasks outside the base task distribution, using small
amounts of offline training data.
- Abstract(参考訳): 本稿では,ロボットタスクの共有物理構造を活用したマルチタスク転送学習の可能性について検討する。
具体的には、事前トレーニングタスクのベースセットのポリシをトレーニングした後、ブラックボックスプリエントとしてこれらのポリシを再使用するためのシンプルなアーキテクチャアプローチを使用して、新たなオフディストリビューションタスクへの適応を試します。
これらのアプローチには、観測空間または行動空間をベースから対象タスクにアライメントして剛体構造を利用する方法や、対象タスクを解決するベースタスク間で時間領域スイッチングポリシーを学習し、時間的コヒーレンスを利用する方法が含まれる。
低複雑さのターゲットポリシークラス、ブラックボックス前の基本ポリシー、および単純な最適化アルゴリズムを組み合わせることで、少数のオフライントレーニングデータを用いて、ベースタスクの配布外の新しいタスクを取得できることがわかった。
関連論文リスト
- Anomaly Detection for Scalable Task Grouping in Reinforcement
Learning-based RAN Optimization [13.055378785343335]
多数の細胞にまたがってうまく機能する学習モデルの訓練と維持は、関連する問題となっている。
本稿では,多数のセルサイトにわたるRAN最適化を実現するための拡張学習政策バンクを構築するためのスケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:05:17Z) - Algorithm Design for Online Meta-Learning with Task Boundary Detection [63.284263611646]
非定常環境におけるタスクに依存しないオンラインメタ学習のための新しいアルゴリズムを提案する。
まず,タスクスイッチと分散シフトの簡易かつ効果的な2つの検出機構を提案する。
軽度条件下では,線形タスク平均的後悔がアルゴリズムに対して達成可能であることを示す。
論文 参考訳(メタデータ) (2023-02-02T04:02:49Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Interval Bound Interpolation for Few-shot Learning with Few Tasks [15.85259386116784]
少ないショット学習は、さまざまなタスクのトレーニングから得られた知識を、限られたラベル付きデータで見つからないタスクに転送することを目的としている。
そこで本研究では,頑健な学習文献から数ショット学習まで,インターバルバウンダリの概念を紹介した。
次に、利用可能なタスクと各インターバル境界を補間することにより、トレーニングのための新しいタスクを人工的に形成する。
論文 参考訳(メタデータ) (2022-04-07T15:29:27Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z) - Multi-Task Reinforcement Learning with Soft Modularization [25.724764855681137]
マルチタスク学習は強化学習において非常に難しい問題である。
この最適化問題を緩和するために,ポリシー表現に明示的なモジュール化手法を導入する。
提案手法は,強いベースライン上でのサンプリング効率と性能を,大きなマージンで向上することを示す。
論文 参考訳(メタデータ) (2020-03-30T17:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。