論文の概要: Priors, Hierarchy, and Information Asymmetry for Skill Transfer in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2201.08115v2
- Date: Tue, 25 Apr 2023 03:26:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 00:20:42.979300
- Title: Priors, Hierarchy, and Information Asymmetry for Skill Transfer in
Reinforcement Learning
- Title(参考訳): 強化学習におけるスキル伝達の事前, 階層, 情報非対称性
- Authors: Sasha Salter, Kristian Hartikainen, Walter Goodwin, Ingmar Posner
- Abstract要約: 情報非対称性によって制御される逐次的タスク間のスキルの重要表現性と伝達可能性のトレードオフを示す。
表現力・伝達性スキル(APES)の注意事項について紹介する。
既存のアプローチとは異なり、APESはデータ駆動のドメイン依存的な方法で学習することで非対称性の選択を自動化する。
- 参考スコア(独自算出の注目度): 18.865535706610522
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The ability to discover behaviours from past experience and transfer them to
new tasks is a hallmark of intelligent agents acting sample-efficiently in the
real world. Equipping embodied reinforcement learners with the same ability may
be crucial for their successful deployment in robotics. While hierarchical and
KL-regularized reinforcement learning individually hold promise here, arguably
a hybrid approach could combine their respective benefits. Key to these fields
is the use of information asymmetry across architectural modules to bias which
skills are learnt. While asymmetry choice has a large influence on
transferability, existing methods base their choice primarily on intuition in a
domain-independent, potentially sub-optimal, manner. In this paper, we
theoretically and empirically show the crucial expressivity-transferability
trade-off of skills across sequential tasks, controlled by information
asymmetry. Given this insight, we introduce Attentive Priors for Expressive and
Transferable Skills (APES), a hierarchical KL-regularized method, heavily
benefiting from both priors and hierarchy. Unlike existing approaches, APES
automates the choice of asymmetry by learning it in a data-driven,
domain-dependent, way based on our expressivity-transferability theorems.
Experiments over complex transfer domains of varying levels of extrapolation
and sparsity, such as robot block stacking, demonstrate the criticality of the
correct asymmetric choice, with APES drastically outperforming previous
methods.
- Abstract(参考訳): 過去の経験から行動を発見し、それらを新しいタスクに移す能力は、現実世界でサンプル効率よく行動するインテリジェントエージェントの目印である。
具体化された強化学習者を同じ能力で獲得することは、ロボット工学への展開を成功させる上で重要である。
階層的およびKL規則化された強化学習は、ここでは個別に約束するが、おそらくハイブリッドアプローチはそれぞれの利点を組み合わせることができるだろう。
これらの分野の鍵となるのは、学習するスキルをバイアスするために、アーキテクチャモジュール間で情報非対称性を使用することである。
非対称性の選択は転送可能性に大きな影響を及ぼすが、既存の方法は主にドメインに依存しない、潜在的に最適でない方法での直観に基づく。
本稿では,情報非対称性によって制御された逐次的タスク間のスキルの重要表現性と伝達可能性のトレードオフを理論的かつ実証的に示す。
この知見を生かして,階層的kl正規化手法である表現可能・伝達可能スキル(apes)に対する注意的優先事項について紹介する。
既存のアプローチとは異なり、APESはデータ駆動の領域依存的な方法で、表現性-伝達可能性定理に基づいて非対称性の選択を自動化する。
ロボットブロックの積み重ねなど、様々なレベルの外挿と疎結合の複雑な転写領域に対する実験は、APESが以前の手法を大幅に上回って、正しい非対称選択の臨界度を示す。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Latent-Predictive Empowerment: Measuring Empowerment without a Simulator [56.53777237504011]
我々は、より実用的な方法でエンパワーメントを計算するアルゴリズムであるLatent-Predictive Empowerment(LPE)を提案する。
LPEは、スキルと国家間の相互情報の原則的な置き換えである目的を最大化することで、大きなスキルセットを学習する。
論文 参考訳(メタデータ) (2024-10-15T00:41:18Z) - Conditional Neural Expert Processes for Learning Movement Primitives from Demonstration [1.9336815376402723]
条件付きニューラルネットワークプロセス(CNEP)は、異なるモードから異なる専門家ネットワークにデモを割り当てることを学ぶ。
CNEPは、軌道がどのモードに属するかの監督を必要としない。
本システムは,オンラインコンディショニング機構を用いて,環境変化へのオンザフライ適応が可能なシステムである。
論文 参考訳(メタデータ) (2024-02-13T12:52:02Z) - Self-Optimizing Feature Transformation [33.458785763961004]
特徴変換は、既存の特徴を数学的に変換することで、優れた表現(特徴)空間を抽出することを目的としている。
現在の研究は、ドメイン知識に基づく特徴工学や学習潜在表現に焦点を当てている。
特徴変換のための自己最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-16T16:50:41Z) - Learning Transferable Motor Skills with Hierarchical Latent Mixture
Policies [37.09286945259353]
階層的混合潜時変動モデルを用いて,データから抽象運動スキルを学習する手法を提案する。
提案手法は,オフラインデータを異なる実行動作に効果的にクラスタ化することができることを示す。
論文 参考訳(メタデータ) (2021-12-09T17:37:14Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z) - Uniform Priors for Data-Efficient Transfer [65.086680950871]
もっとも移動可能な特徴は埋め込み空間において高い均一性を有することを示す。
我々は、未確認のタスクやデータへの適応を容易にする能力の正規化を評価する。
論文 参考訳(メタデータ) (2020-06-30T04:39:36Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z) - Self-Attention Attribution: Interpreting Information Interactions Inside
Transformer [89.21584915290319]
本稿では,トランスフォーマー内の情報相互作用を解釈する自己帰属属性法を提案する。
本研究は,BERT に対する非目標攻撃の実装において,その属性を敵対パターンとして用いることができることを示す。
論文 参考訳(メタデータ) (2020-04-23T14:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。