論文の概要: Priors, Hierarchy, and Information Asymmetry for Skill Transfer in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2201.08115v1
- Date: Thu, 20 Jan 2022 11:12:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 20:20:14.243466
- Title: Priors, Hierarchy, and Information Asymmetry for Skill Transfer in
Reinforcement Learning
- Title(参考訳): 強化学習におけるスキル伝達の事前, 階層, 情報非対称性
- Authors: Sasha Salter, Kristian Hartikainen, Walter Goodwin, Ingmar Posner
- Abstract要約: スキルの表現性と伝達性の間には,情報非対称性によって制御される重要なトレードオフが示される。
我々のアプローチを、ベースラインによって解決不可能な複雑なロボットブロック積み重ねドメインに適用する。
- 参考スコア(独自算出の注目度): 18.865535706610522
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The ability to discover behaviours from past experience and transfer them to
new tasks is a hallmark of intelligent agents acting sample-efficiently in the
real world. Equipping embodied reinforcement learners with the same ability may
be crucial for their successful deployment in robotics. While hierarchical and
KL-regularized RL individually hold promise here, arguably a hybrid approach
could combine their respective benefits. Key to these fields is the use of
information asymmetry to bias which skills are learnt. While asymmetric choice
has a large influence on transferability, prior works have explored a narrow
range of asymmetries, primarily motivated by intuition. In this paper, we
theoretically and empirically show the crucial trade-off, controlled by
information asymmetry, between the expressivity and transferability of skills
across sequential tasks. Given this insight, we provide a principled approach
towards choosing asymmetry and apply our approach to a complex, robotic block
stacking domain, unsolvable by baselines, demonstrating the effectiveness of
hierarchical KL-regularized RL, coupled with correct asymmetric choice, for
sample-efficient transfer learning.
- Abstract(参考訳): 過去の経験から行動を発見し、それらを新しいタスクに移す能力は、現実世界でサンプル効率よく行動するインテリジェントエージェントの目印である。
具体化された強化学習者を同じ能力で獲得することは、ロボット工学への展開を成功させる上で重要である。
階層的かつKL規則化されたRLは、ここでは個別に約束するが、おそらくハイブリッドアプローチはそれぞれの利点を組み合わせることができるだろう。
これらの分野の鍵は、学習するスキルのバイアスに対する情報非対称性の使用である。
非対称選択は伝達可能性に大きな影響を及ぼすが、先行研究は、主に直観に動機づけられた、狭い範囲の非対称性を探索してきた。
本稿では,シーケンシャルタスク間のスキルの表現性と伝達性の間に,情報非対称性によって制御される重要なトレードオフを理論的かつ実証的に示す。
この知見を活かし、非対称性を選択するための原則的なアプローチを提供し、ベースラインでは解決できない複雑なロボットブロック積み重ねドメインに適用し、サンプル効率の高い転送学習において、階層的kl正規化rlの有効性を示す。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Latent-Predictive Empowerment: Measuring Empowerment without a Simulator [56.53777237504011]
我々は、より実用的な方法でエンパワーメントを計算するアルゴリズムであるLatent-Predictive Empowerment(LPE)を提案する。
LPEは、スキルと国家間の相互情報の原則的な置き換えである目的を最大化することで、大きなスキルセットを学習する。
論文 参考訳(メタデータ) (2024-10-15T00:41:18Z) - Conditional Neural Expert Processes for Learning Movement Primitives from Demonstration [1.9336815376402723]
条件付きニューラルネットワークプロセス(CNEP)は、異なるモードから異なる専門家ネットワークにデモを割り当てることを学ぶ。
CNEPは、軌道がどのモードに属するかの監督を必要としない。
本システムは,オンラインコンディショニング機構を用いて,環境変化へのオンザフライ適応が可能なシステムである。
論文 参考訳(メタデータ) (2024-02-13T12:52:02Z) - Self-Optimizing Feature Transformation [33.458785763961004]
特徴変換は、既存の特徴を数学的に変換することで、優れた表現(特徴)空間を抽出することを目的としている。
現在の研究は、ドメイン知識に基づく特徴工学や学習潜在表現に焦点を当てている。
特徴変換のための自己最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-16T16:50:41Z) - Learning Transferable Motor Skills with Hierarchical Latent Mixture
Policies [37.09286945259353]
階層的混合潜時変動モデルを用いて,データから抽象運動スキルを学習する手法を提案する。
提案手法は,オフラインデータを異なる実行動作に効果的にクラスタ化することができることを示す。
論文 参考訳(メタデータ) (2021-12-09T17:37:14Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z) - Uniform Priors for Data-Efficient Transfer [65.086680950871]
もっとも移動可能な特徴は埋め込み空間において高い均一性を有することを示す。
我々は、未確認のタスクやデータへの適応を容易にする能力の正規化を評価する。
論文 参考訳(メタデータ) (2020-06-30T04:39:36Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z) - Self-Attention Attribution: Interpreting Information Interactions Inside
Transformer [89.21584915290319]
本稿では,トランスフォーマー内の情報相互作用を解釈する自己帰属属性法を提案する。
本研究は,BERT に対する非目標攻撃の実装において,その属性を敵対パターンとして用いることができることを示す。
論文 参考訳(メタデータ) (2020-04-23T14:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。