論文の概要: Behavior Priors for Efficient Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2010.14274v1
- Date: Tue, 27 Oct 2020 13:17:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 11:22:42.724075
- Title: Behavior Priors for Efficient Reinforcement Learning
- Title(参考訳): 効果的な強化学習のための行動優先
- Authors: Dhruva Tirumala, Alexandre Galashov, Hyeonwoo Noh, Leonard
Hasenclever, Razvan Pascanu, Jonathan Schwarz, Guillaume Desjardins, Wojciech
Marian Czarnecki, Arun Ahuja, Yee Whye Teh, Nicolas Heess
- Abstract要約: 本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
- 参考スコア(独自算出の注目度): 97.81587970962232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As we deploy reinforcement learning agents to solve increasingly challenging
problems, methods that allow us to inject prior knowledge about the structure
of the world and effective solution strategies becomes increasingly important.
In this work we consider how information and architectural constraints can be
combined with ideas from the probabilistic modeling literature to learn
behavior priors that capture the common movement and interaction patterns that
are shared across a set of related tasks or contexts. For example the day-to
day behavior of humans comprises distinctive locomotion and manipulation
patterns that recur across many different situations and goals. We discuss how
such behavior patterns can be captured using probabilistic trajectory models
and how these can be integrated effectively into reinforcement learning
schemes, e.g.\ to facilitate multi-task and transfer learning. We then extend
these ideas to latent variable models and consider a formulation to learn
hierarchical priors that capture different aspects of the behavior in reusable
modules. We discuss how such latent variable formulations connect to related
work on hierarchical reinforcement learning (HRL) and mutual information and
curiosity based objectives, thereby offering an alternative perspective on
existing ideas. We demonstrate the effectiveness of our framework by applying
it to a range of simulated continuous control domains.
- Abstract(参考訳): ますます困難な問題を解決するために強化学習エージェントを配備するにつれて、世界の構造や効果的な解法戦略に関する事前知識を注入する手段がますます重要になる。
本研究では,情報とアーキテクチャ上の制約と確率的モデリング文献のアイデアを組み合わせることで,関連するタスクやコンテキストのセット間で共有される共通動作やインタラクションパターンを捉えた行動優先を学習する方法を検討する。
例えば、人間の日々の行動は、様々な状況や目標にまたがる特徴的な移動と操作パターンを含んでいる。
本稿では,確率的軌道モデルを用いてこのような行動パターンを捉える方法と,マルチタスクや移動学習を容易にする強化学習手法に効果的に統合する方法について論じる。
次に、これらのアイデアを潜在変数モデルに拡張し、再利用可能なモジュールの振る舞いの異なる側面を捉える階層的事前学習の定式化を検討する。
このような潜在変数の定式化が階層的強化学習(hrl)と相互情報と好奇心に基づく目標の関連作業とどのように結びつくかについて議論し,既存の考え方に対する代替的視点を提供する。
シミュレーションされた連続制御ドメインに適用することにより,このフレームワークの有効性を実証する。
関連論文リスト
- Leveraging Hierarchical Taxonomies in Prompt-based Continual Learning [41.13568563835089]
深層学習モデルの学習において,情報の整理・接続という人間の習慣を適用することが効果的な戦略として有効であることがわかった。
本稿では,モデルがより挑戦的な知識領域に集中するように促す新たな正規化損失関数を提案する。
論文 参考訳(メタデータ) (2024-10-06T01:30:40Z) - Generative Intrinsic Optimization: Intrinsic Control with Model Learning [5.439020425819001]
将来のシーケンスは、環境へのアクションの実行後の結果を表す。
明示的な成果は、クレジットの割り当てや模倣学習などの異なる目的のために、州、返却、軌跡によって異なりうる。
本稿では、相互情報をシームレスに組み込んだ政策スキームを提案し、最適な政策への収束を確保する。
論文 参考訳(メタデータ) (2023-10-12T07:50:37Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Learning Generalizable Representations for Reinforcement Learning via
Adaptive Meta-learner of Behavioral Similarities [43.327357653393015]
本稿では,強化学習における行動類似性に関する表現学習のためのメタラーナーベースフレームワークを提案する。
提案するフレームワークが,いくつかのベンチマークで最先端のベースラインを上回っていることを実証的に実証した。
論文 参考訳(メタデータ) (2022-12-26T11:11:23Z) - Hierarchically Structured Task-Agnostic Continual Learning [0.0]
本研究では,連続学習のタスク非依存的な視点を取り入れ,階層的情報理論の最適性原理を考案する。
我々は,情報処理経路の集合を作成することで,忘れを緩和する,Mixture-of-Variational-Experts層と呼ばれるニューラルネットワーク層を提案する。
既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない。
論文 参考訳(メタデータ) (2022-11-14T19:53:15Z) - Procedure Planning in Instructional Videosvia Contextual Modeling and
Model-based Policy Learning [114.1830997893756]
本研究は,実生活ビデオにおける目標指向アクションを計画するモデルを学習することに焦点を当てる。
本研究では,ベイズ推論とモデルに基づく模倣学習を通して,人間の行動のモデル化を行う新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-05T01:06:53Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。