論文の概要: On Time-Indexing as Inductive Bias in Deep RL for Sequential
Manipulation Tasks
- arxiv url: http://arxiv.org/abs/2401.01993v1
- Date: Wed, 3 Jan 2024 22:05:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 16:22:58.526912
- Title: On Time-Indexing as Inductive Bias in Deep RL for Sequential
Manipulation Tasks
- Title(参考訳): 逐次操作タスクのための深部RLにおけるインダクティブバイアスとしての時間インデクシングについて
- Authors: M. Nomaan Qureshi, Ben Eisner, David Held
- Abstract要約: 操作ポリシーは、複雑な操作タスクを達成するために、様々なスキルのセットを学ぶ必要があることが多い。
標準的なディープポリシー学習アルゴリズムは、1つの出力ヘッドを持つディープニューラルネットワークとしてポリシーをモデル化することが多い。
本稿では,一定期間に異なるアクションヘッドを順次実行するポリシーアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 13.65525562039959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While solving complex manipulation tasks, manipulation policies often need to
learn a set of diverse skills to accomplish these tasks. The set of skills is
often quite multimodal - each one may have a quite distinct distribution of
actions and states. Standard deep policy-learning algorithms often model
policies as deep neural networks with a single output head (deterministic or
stochastic). This structure requires the network to learn to switch between
modes internally, which can lead to lower sample efficiency and poor
performance. In this paper we explore a simple structure which is conducive to
skill learning required for so many of the manipulation tasks. Specifically, we
propose a policy architecture that sequentially executes different action heads
for fixed durations, enabling the learning of primitive skills such as reaching
and grasping. Our empirical evaluation on the Metaworld tasks reveals that this
simple structure outperforms standard policy learning methods, highlighting its
potential for improved skill acquisition.
- Abstract(参考訳): 複雑な操作タスクを解く一方で、操作ポリシーはこれらのタスクを達成するために様々なスキルセットを学ぶ必要がある。
スキルのセットは、しばしば非常に多様であり、それぞれが全く異なる行動や状態の分布を持っている可能性がある。
標準的なディープポリシー学習アルゴリズムは、しばしば1つの出力ヘッド(決定論的または確率的)を持つディープニューラルネットワークとしてポリシーをモデル化する。
この構造では、ネットワーク内部でモード切り替えを学ぶ必要があるため、サンプル効率が低下し、パフォーマンスが低下する可能性がある。
本稿では,多くの操作作業に必要なスキル学習を実現するための簡単な構造について検討する。
具体的には,様々なアクションヘッドを一定期間連続的に実行し,到達や把握といった原始的なスキルの習得を可能にするポリシアーキテクチャを提案する。
メタワールドタスクに対する実証的な評価は、この単純な構造が標準的なポリシー学習方法より優れており、スキル獲得の改善の可能性を強調していることを示している。
関連論文リスト
- Hierarchically Structured Task-Agnostic Continual Learning [0.0]
本研究では,連続学習のタスク非依存的な視点を取り入れ,階層的情報理論の最適性原理を考案する。
我々は,情報処理経路の集合を作成することで,忘れを緩和する,Mixture-of-Variational-Experts層と呼ばれるニューラルネットワーク層を提案する。
既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない。
論文 参考訳(メタデータ) (2022-11-14T19:53:15Z) - Active Task Randomization: Learning Robust Skills via Unsupervised
Generation of Diverse and Feasible Tasks [37.73239471412444]
我々は、教師なしのトレーニングタスクの生成を通じて、堅牢なスキルを学ぶアプローチであるActive Task Randomization (ATR)を導入する。
ATRは、タスクの多様性と実現可能性のバランスをとることで、堅牢なスキルを学ぶために、初期環境状態と操作目標からなる適切なタスクを選択する。
本研究では,視覚的入力に基づく逐次操作問題の解決のために,タスクプランナが学習スキルを構成することを実証する。
論文 参考訳(メタデータ) (2022-11-11T11:24:55Z) - Neuroevolution is a Competitive Alternative to Reinforcement Learning
for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。
品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:06:39Z) - Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文 参考訳(メタデータ) (2022-02-28T16:07:19Z) - Fully Online Meta-Learning Without Task Boundaries [80.09124768759564]
この性質のオンライン問題にメタラーニングを適用する方法について検討する。
タスク境界に関する基礎的な真理知識を必要としない完全オンラインメタラーニング(FOML)アルゴリズムを提案する。
実験の結果,FOMLは最先端のオンライン学習手法よりも高速に新しいタスクを学習できることがわかった。
論文 参考訳(メタデータ) (2022-02-01T07:51:24Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Conditional Meta-Learning of Linear Representations [57.90025697492041]
表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的とする。
本研究では,タスクの側情報を手作業に適した表現にマッピングし,条件付け関数を推定することで,この問題を克服する。
この利点を実用的に活用できるメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-30T12:02:14Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。