論文の概要: Policy Architectures for Compositional Generalization in Control
- arxiv url: http://arxiv.org/abs/2203.05960v1
- Date: Thu, 10 Mar 2022 06:44:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 23:28:28.065620
- Title: Policy Architectures for Compositional Generalization in Control
- Title(参考訳): 制御における構成一般化のための政策アーキテクチャ
- Authors: Allan Zhou, Vikash Kumar, Chelsea Finn, Aravind Rajeswaran
- Abstract要約: 本稿では,タスクにおけるエンティティベースの構成構造をモデル化するためのフレームワークを提案する。
私たちのポリシーは柔軟で、アクションプリミティブを必要とせずにエンドツーエンドでトレーニングできます。
- 参考スコア(独自算出の注目度): 71.61675703776628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many tasks in control, robotics, and planning can be specified using desired
goal configurations for various entities in the environment. Learning
goal-conditioned policies is a natural paradigm to solve such tasks. However,
current approaches struggle to learn and generalize as task complexity
increases, such as variations in number of environment entities or compositions
of goals. In this work, we introduce a framework for modeling entity-based
compositional structure in tasks, and create suitable policy designs that can
leverage this structure. Our policies, which utilize architectures like Deep
Sets and Self Attention, are flexible and can be trained end-to-end without
requiring any action primitives. When trained using standard reinforcement and
imitation learning methods on a suite of simulated robot manipulation tasks, we
find that these architectures achieve significantly higher success rates with
less data. We also find these architectures enable broader and compositional
generalization, producing policies that extrapolate to different numbers of
entities than seen in training, and stitch together (i.e. compose) learned
skills in novel ways. Videos of the results can be found at
https://sites.google.com/view/comp-gen-rl.
- Abstract(参考訳): 制御、ロボット工学、計画における多くのタスクは、環境における様々なエンティティの所望のゴール設定を使用して指定できる。
目標条件のポリシーを学ぶことは、そのようなタスクを解決する自然なパラダイムです。
しかし、現在のアプローチは、環境エンティティの数の変化や目標の構成など、タスクの複雑さが増すにつれて学習と一般化に苦慮している。
本稿では、タスクにおけるエンティティベースの構成構造をモデル化するフレームワークを導入し、この構造を活用できる適切なポリシー設計を作成する。
Deep SetsやSelf Attentionといったアーキテクチャを利用する私たちのポリシは柔軟で、アクションプリミティブを必要とせずにエンドツーエンドでトレーニングすることが可能です。
シミュレーションロボット操作タスクで標準的な強化および模倣学習手法を用いてトレーニングすると、これらのアーキテクチャは少ないデータではるかに高い成功率を達成できることがわかった。
また、これらのアーキテクチャはより広範かつ構成的な一般化を可能にし、トレーニングで見られる異なる数のエンティティに外挿するポリシーを作成し、新しい方法で学習スキルを縫い合わせる(つまり構成する)。
結果のビデオはhttps://sites.google.com/view/comp-gen-rl.comで見ることができる。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Task Agnostic Architecture for Algorithm Induction via Implicit Composition [10.627575117586417]
本研究の目的は,このような統一アーキテクチャの構築を探求することであり,その構築方法に関する理論的枠組みを提案することである。
最近のジェネレーティブAI、特にトランスフォーマーベースのモデルは、幅広い領域のアルゴリズムを構築することができるアーキテクチャとしての可能性を示している。
アルゴリズム合成におけるトランスフォーマーおよび他の手法の現在の機能と限界について検討する。
論文 参考訳(メタデータ) (2024-04-03T04:31:09Z) - Structural Concept Learning via Graph Attention for Multi-Level
Rearrangement Planning [2.7195102129095003]
本稿では,階層構造を持つシーンに対して,複数レベルのオブジェクトアレンジメント計画を実行するためのディープラーニング手法を提案する。
直感的な構造を持つ自己生成シミュレーションデータセットでトレーニングされ、任意の数のオブジェクトで見えないシーンで動作する。
提案手法を古典的およびモデルベースラインの範囲と比較し,そのシーン理解を活用して性能,柔軟性,効率性を向上することを示す。
論文 参考訳(メタデータ) (2023-09-05T19:35:44Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Self-supervised Reinforcement Learning with Independently Controllable
Subgoals [20.29444813790076]
自己監督エージェントは、環境の構造を活用することで、自身の目標を設定した。
それらのいくつかは、合成多目的環境における基本的な操作スキルを学ぶために応用された。
本稿では,環境コンポーネント間の関係を推定し,環境状態の異なる部分を独立に制御する,新たな自己管理エージェントを提案する。
論文 参考訳(メタデータ) (2021-09-09T10:21:02Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z) - MetaPerturb: Transferable Regularizer for Heterogeneous Tasks and
Architectures [61.73533544385352]
本稿ではメタパーターブ(MetaPerturb)というトランスファー可能な摂動モデルを提案する。
MetaPerturbは、レイヤやタスクにまたがる多様な分散を訓練したセット関数であるため、異種タスクやアーキテクチャを一般化することができる。
論文 参考訳(メタデータ) (2020-06-13T02:54:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。