論文の概要: Specializing Versatile Skill Libraries using Local Mixture of Experts
- arxiv url: http://arxiv.org/abs/2112.04216v1
- Date: Wed, 8 Dec 2021 10:39:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 21:59:48.772965
- Title: Specializing Versatile Skill Libraries using Local Mixture of Experts
- Title(参考訳): 専門家の局所的混合による多彩なスキルライブラリーの特殊化
- Authors: Onur Celik, Dongzhuoran Zhou, Ge Li, Philipp Becker, Gerhard Neumann
- Abstract要約: ロボット工学におけるビジョンは、人間の万能性と精度に合ったスキルをロボットに装備することである。
このような多目的な振る舞いをモデル化するための一般的なアプローチは、各専門家が文脈運動プリミティブであるMixture of Experts(MoE)モデルを使用することである。
本稿では,各コンポーネントが局所的なコンテキスト領域に集中できるようにし,モデルが高度に正確なスキル表現を学習できるようにすることによってカリキュラムを導入する。
- 参考スコア(独自算出の注目度): 28.122791895276062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A long-cherished vision in robotics is to equip robots with skills that match
the versatility and precision of humans. For example, when playing table
tennis, a robot should be capable of returning the ball in various ways while
precisely placing it at the desired location. A common approach to model such
versatile behavior is to use a Mixture of Experts (MoE) model, where each
expert is a contextual motion primitive. However, learning such MoEs is
challenging as most objectives force the model to cover the entire context
space, which prevents specialization of the primitives resulting in rather
low-quality components. Starting from maximum entropy reinforcement learning
(RL), we decompose the objective into optimizing an individual lower bound per
mixture component. Further, we introduce a curriculum by allowing the
components to focus on a local context region, enabling the model to learn
highly accurate skill representations. To this end, we use local context
distributions that are adapted jointly with the expert primitives. Our lower
bound advocates an iterative addition of new components, where new components
will concentrate on local context regions not covered by the current MoE. This
local and incremental learning results in a modular MoE model of high accuracy
and versatility, where both properties can be scaled by adding more components
on the fly. We demonstrate this by an extensive ablation and on two challenging
simulated robot skill learning tasks. We compare our achieved performance to
LaDiPS and HiREPS, a known hierarchical policy search method for learning
diverse skills.
- Abstract(参考訳): ロボット工学における長年のビジョンは、人間の万能性と精度に合ったスキルをロボットに装備することである。
例えば、卓球を行う場合、ロボットは、所望の場所に正確に配置しながら、様々な方法でボールを返すことができるべきである。
このような多目的な振る舞いをモデル化するための一般的なアプローチは、各専門家が文脈運動プリミティブであるMixture of Experts(MoE)モデルを使用することである。
しかし、そのようなMoEsを学ぶことは、ほとんどの目的が、プリミティブの特殊化を防ぎ、より低品質なコンポーネントを生み出すために、モデル全体をカバーせざるを得なくなるため、難しい。
最大エントロピー強化学習(RL)から始めて, 目的を分解し, 混合成分あたりの個々の下界を最適化する。
さらに,コンポーネントを局所的なコンテキスト領域に集中させることで,高度に正確なスキル表現を学習できるカリキュラムを導入する。
この目的のために、我々はエキスパートプリミティブと共同で適応されたローカルコンテキスト分布を使用する。
私たちの下限では、新しいコンポーネントが現在のmoeでカバーされていないローカルコンテキスト領域に集中する、新しいコンポーネントの反復的な追加を提唱しています。
この局所的および漸進的な学習は、高い精度と汎用性のモジュラMOEモデルをもたらす。
我々はこれを広範囲にわたるアブレーションと、ロボットのスキル学習に挑戦する2つの課題で実証した。
我々は、様々なスキルを学ぶための既知の階層的ポリシー探索手法であるladipsとhirepsと比較した。
関連論文リスト
- Interactive incremental learning of generalizable skills with local trajectory modulation [14.416251854298409]
軌道分布の局所的および大域的変調を同時に活用するインタラクティブな模倣学習フレームワークを提案する。
提案手法では, インクリメンタルかつインタラクティブに, 1) モデル精度の向上, 2) 実行中のタスクに新しいオブジェクトの追加,3) デモが提供されていない領域にスキルを拡大する。
論文 参考訳(メタデータ) (2024-09-09T14:22:19Z) - Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z) - Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts [58.220879689376744]
強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。
多様なスキルを学習するための textbfDiverse textbfSkill textbfLearning (Di-SkilL) を提案する。
本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
論文 参考訳(メタデータ) (2024-03-11T17:49:18Z) - Curriculum-Based Imitation of Versatile Skills [15.97723808124603]
模倣による学習スキルは、ロボットの直感的な教育にとって有望な概念である。
このようなスキルを学ぶ一般的な方法は、デモが与えられた可能性の最大化によってパラメトリックモデルを学ぶことである。
しかし、人間のデモンストレーションはしばしばマルチモーダルであり、同じタスクは複数の方法で解決される。
論文 参考訳(メタデータ) (2023-04-11T12:10:41Z) - Diversity Through Exclusion (DTE): Niche Identification for
Reinforcement Learning through Value-Decomposition [63.67574523750839]
本稿では,多変量ニッチ環境におけるベースライン深度Q-ラーニングアルゴリズムよりも優れた汎用強化学習(RL)アルゴリズムを提案する。
この方法で訓練されたエージェントは、貧弱だが魅力ある局所最適化から逃れて、より高い価値戦略の発見を困難にすることを示します。
論文 参考訳(メタデータ) (2023-02-02T16:00:19Z) - Learning Discrete Energy-based Models via Auxiliary-variable Local
Exploration [130.89746032163106]
離散構造データに対する条件付きおよび非条件付きEMMを学習するための新しいアルゴリズムであるALOEを提案する。
エネルギー関数とサンプリング器は、新しい変分型電力繰り返しにより効率よく訓練できることを示す。
本稿では、ソフトウェアテストのためのエネルギーモデルガイド付ファジィザについて、libfuzzerのようなよく設計されたファジィエンジンに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2020-11-10T19:31:29Z) - Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。
中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。
i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文 参考訳(メタデータ) (2020-10-11T01:40:03Z) - Learning and Sequencing of Object-Centric Manipulation Skills for
Industrial Tasks [16.308562047398542]
本稿では,オブジェクト中心の隠れセミマルコフモデルを用いて,ロボットのスキルシーケンスを高速に符号化するアルゴリズムを提案する。
学習したスキルモデルは、多モーダルな(時間的および空間的な)軌道分布を符号化することができる。
本研究では,産業用組立作業用ロボットアーム7台について実演する。
論文 参考訳(メタデータ) (2020-08-24T14:20:05Z) - Customized Video QoE Estimation with Algorithm-Agnostic Transfer
Learning [1.452875650827562]
小さなデータセット、ソースドメインのユーザプロファイルの多様性の欠如、QoEモデルのターゲットドメインの多様性の多さは、QoEモデルの課題である。
平均オピニオンスコア(MOS)上の汎用指標を分散化されたローカルモデルで共有する、トランスファーラーニングに基づくMLモデルトレーニング手法を提案する。
提案手法は,同一のMLアルゴリズムを実行するために,協調する局所ノードを必要としないため,互いに積み重ねた特定のMLアルゴリズムに非依存であることを示す。
論文 参考訳(メタデータ) (2020-03-12T15:28:10Z) - Learning to Move with Affordance Maps [57.198806691838364]
物理的な空間を自律的に探索し、ナビゲートする能力は、事実上あらゆる移動型自律エージェントの基本的な要件である。
従来のSLAMベースの探索とナビゲーションのアプローチは、主にシーン幾何学の活用に重点を置いている。
学習可能な余剰マップは探索と航法の両方において従来のアプローチの強化に利用でき、性能が大幅に向上することを示します。
論文 参考訳(メタデータ) (2020-01-08T04:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。