論文の概要: Characterizing Policy Divergence for Personalized Meta-Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2010.04816v1
- Date: Fri, 9 Oct 2020 21:31:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 04:39:26.963022
- Title: Characterizing Policy Divergence for Personalized Meta-Reinforcement
Learning
- Title(参考訳): 個人化メタ強化学習のための政策多様性の特徴付け
- Authors: Michael Zhang
- Abstract要約: 我々は、複数のエンティティのセットに対して、潜在的に異なる特性を持つ複数のエンティティに対して最適なポリシーを推奨する問題を考察する。
メタラーニングにおける既存の文献から着想を得たモデルフリーなメタラーニングアルゴリズムを提案する。
提案アルゴリズムは,逆強化学習における手法による過去の政策分岐を特徴付けることを含み,そのような指標が過去の政策パラメータを,それらが配置された環境によって効果的に識別できることを示す。
- 参考スコア(独自算出の注目度): 4.716565301427257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite ample motivation from costly exploration and limited trajectory data,
rapidly adapting to new environments with few-shot reinforcement learning (RL)
can remain a challenging task, especially with respect to personalized
settings. Here, we consider the problem of recommending optimal policies to a
set of multiple entities each with potentially different characteristics, such
that individual entities may parameterize distinct environments with unique
transition dynamics. Inspired by existing literature in meta-learning, we
extend previous work by focusing on the notion that certain environments are
more similar to each other than others in personalized settings, and propose a
model-free meta-learning algorithm that prioritizes past experiences by
relevance during gradient-based adaptation. Our algorithm involves
characterizing past policy divergence through methods in inverse reinforcement
learning, and we illustrate how such metrics are able to effectively
distinguish past policy parameters by the environment they were deployed in,
leading to more effective fast adaptation during test time. To study
personalization more effectively we introduce a navigation testbed to
specifically incorporate environment diversity across training episodes, and
demonstrate that our approach outperforms meta-learning alternatives with
respect to few-shot reinforcement learning in personalized settings.
- Abstract(参考訳): 費用のかかる探査と限られた軌道データからのモチベーションが豊富にあるが、特にパーソナライズされた設定に関して、少数ショット強化学習(rl)による新しい環境への迅速な適応は難しい課題である。
本稿では,異なる特性を持つ複数のエンティティの集合に対して,個々のエンティティが一意な遷移ダイナミクスを持つ異なる環境をパラメータ化するような最適ポリシーを推奨する問題を考える。
メタラーニングにおける既存の文献に着想を得て,特定の環境がパーソナライズされた設定において互いにより類似しているという概念に着目し,勾配適応時の妥当性によって過去の経験を優先するモデルフリーなメタラーニングアルゴリズムを提案する。
提案アルゴリズムは,逆強化学習における手法による過去の政策分岐を特徴付けることを含み,そのような指標が過去の政策パラメータを,それらが配置された環境によって効果的に識別できることを示す。
パーソナライゼーションをより効果的に研究するために、トレーニングエピソード間の環境多様性を具体化するためのナビゲーションテストベッドを導入し、パーソナライズされた設定における数ショット強化学習よりもメタラーニングの方が優れていることを示す。
関連論文リスト
- C-MORL: Multi-Objective Reinforcement Learning through Efficient Discovery of Pareto Front [9.04360155372014]
制約付きMORLは制約付きポリシー最適化とMORLのシームレスなブリッジである。
我々のアルゴリズムは、離散的かつ連続的な制御タスクにおいて、ハイパーボリューム、期待されるユーティリティ、およびスパーシリティという観点でより一貫性があり、優れた性能を達成する。
論文 参考訳(メタデータ) (2024-10-03T06:13:56Z) - Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - MetaModulation: Learning Variational Feature Hierarchies for Few-Shot
Learning with Fewer Tasks [63.016244188951696]
本稿では,タスクを減らした少数ショット学習手法を提案する。
メタトレーニングタスクを増やすために、さまざまなバッチレベルでパラメータを変更します。
また,変分法を取り入れた学習的変分特徴階層も導入する。
論文 参考訳(メタデータ) (2023-05-17T15:47:47Z) - Invariant Meta Learning for Out-of-Distribution Generalization [1.1718589131017048]
本稿では,アウト・オブ・ディストリビューションタスクのための不変なメタ学習を提案する。
具体的には、不変な最適メタ初期化と、正規化ペナルティを持つ配布外タスクへの迅速な適応である。
論文 参考訳(メタデータ) (2023-01-26T12:53:21Z) - Efficient Meta Reinforcement Learning for Preference-based Fast
Adaptation [17.165083095799712]
本研究では,ループ内強化学習の文脈における少数ショット適応の問題について検討する。
そこで我々は,嗜好に基づくフィードバックによる迅速なポリシー適応を実現するメタRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-11-20T03:55:09Z) - Dynamic Regret Analysis for Online Meta-Learning [0.0]
オンラインメタ学習フレームワークは、継続的な生涯学習設定のための強力なツールとして生まれてきた。
この定式化には、メタラーナーを学ぶ外部レベルと、タスク固有のモデルを学ぶ内部レベルという2つのレベルが含まれる。
グローバルな予測から環境の変化を扱う動的な後悔という観点から、パフォーマンスを確立します。
本稿では,本分析を1つの設定で実施し,各イテレーションの総数に依存する局所的局所的後悔の対数論的証明を期待する。
論文 参考訳(メタデータ) (2021-09-29T12:12:59Z) - Meta Navigator: Search for a Good Adaptation Policy for Few-shot
Learning [113.05118113697111]
少ないショット学習は、ラベル付きデータしか持たない新しいタスクに、以前のタスクから学んだ知識を適応させることを目的としている。
少数ショット学習に関する研究文献は、大きな多様性を示し、異なるアルゴリズムは、しばしば異なる少数ショット学習シナリオで優れている。
本稿では,メタナビゲータ(Meta Navigator)について紹介する。
論文 参考訳(メタデータ) (2021-09-13T07:20:01Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Meta-learning the Learning Trends Shared Across Tasks [123.10294801296926]
グラディエントベースのメタ学習アルゴリズムは、限られたデータで新しいタスクに素早く適応する。
既存のメタ学習アプローチは、適応中の現在のタスク情報にのみ依存する。
パターン認識型メタラーニング手法を提案する。
論文 参考訳(メタデータ) (2020-10-19T08:06:47Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Provably Efficient Model-based Policy Adaptation [22.752774605277555]
有望なアプローチは、事前訓練されたポリシーを新しい環境に迅速に適応させることである。
この政策適応問題の既存の方法は、通常ドメインのランダム化とメタラーニングに依存している。
未確認のターゲット環境でのオンライン適応を可能にする新しいモデルベースメカニズムを提案する。
論文 参考訳(メタデータ) (2020-06-14T23:16:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。