論文の概要: Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization
- arxiv url: http://arxiv.org/abs/2005.02934v1
- Date: Wed, 6 May 2020 16:14:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 04:39:15.311467
- Title: Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization
- Title(参考訳): インフォームドポリシー規則化による動的環境における適応探索戦略の学習
- Authors: Pierre-Alexandre Kamienny, Matteo Pirotta, Alessandro Lazaric,
Thibault Lavril, Nicolas Usunier, Ludovic Denoyer
- Abstract要約: 本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 100.72335252255989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of learning exploration-exploitation strategies that
effectively adapt to dynamic environments, where the task may change over time.
While RNN-based policies could in principle represent such strategies, in
practice their training time is prohibitive and the learning process often
converges to poor solutions. In this paper, we consider the case where the
agent has access to a description of the task (e.g., a task id or task
parameters) at training time, but not at test time. We propose a novel
algorithm that regularizes the training of an RNN-based policy using informed
policies trained to maximize the reward in each task. This dramatically reduces
the sample complexity of training RNN-based policies, without losing their
representational power. As a result, our method learns exploration strategies
that efficiently balance between gathering information about the unknown and
changing task and maximizing the reward over time. We test the performance of
our algorithm in a variety of environments where tasks may vary within each
episode.
- Abstract(参考訳): タスクが時間とともに変化する可能性のある動的環境に効果的に適応する探索・探索戦略の学習について検討する。
rnnベースのポリシーは原則としてそのような戦略を表現できるが、実際にはトレーニング時間は禁止され、学習プロセスはしばしば貧弱なソリューションに収束する。
本稿では,エージェントがタスクの記述(タスクidやタスクパラメータなど)をトレーニング時にアクセスするが,テスト時にはアクセスしない場合を考える。
本稿では,各タスクの報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化するアルゴリズムを提案する。
これにより、表現力を失うことなく、rnnベースのポリシーのトレーニングのサンプル複雑さが劇的に削減される。
その結果,未知タスクの情報収集と変化タスクの情報収集を効率的にバランスし,時間とともに報酬を最大化する探索戦略を学習した。
各エピソードでタスクが変化する可能性のあるさまざまな環境で、アルゴリズムのパフォーマンスをテストします。
関連論文リスト
- Active Fine-Tuning of Generalist Policies [54.65568433408307]
AMF(Active Multi-task Fine-tuning)を提案する。
我々は,AMFの性能保証を規則性仮定で導き,複雑・高次元環境における実験的有効性を示す。
論文 参考訳(メタデータ) (2024-10-07T13:26:36Z) - Pretraining Decision Transformers with Reward Prediction for In-Context Multi-task Structured Bandit Learning [12.608461657195367]
本研究では,累積的後悔を最小限に抑える近似アルゴリズムの学習を目標とするマルチタスク構造化バンディット問題について検討する。
我々は、この共有構造を学習するために、トランスフォーマーを意思決定アルゴリズムとして使用し、テストタスクに一般化する。
提案アルゴリズムは,問題の根底にある構造を知ることなく,コンテキスト内でほぼ最適のポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-06-07T16:34:31Z) - Curriculum Learning in Job Shop Scheduling using Reinforcement Learning [0.3867363075280544]
深層強化学習(DRL)は、困難な事例に対応するエージェントの計画戦略を動的に調整する。
学習プロセスの設計に,同じ問題サイズ内での難易度の変数を積極的に組み込むことにより,基礎的手法としてのDLRをさらに改善する。
論文 参考訳(メタデータ) (2023-05-17T13:15:27Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - One Solution is Not All You Need: Few-Shot Extrapolation via Structured
MaxEnt RL [142.36621929739707]
課題を達成するために多様な行動を学ぶことは、様々な環境に一般化する行動を引き起こす可能性があることを示す。
トレーニング中の1つの環境でタスクの複数のソリューションを識別することにより、我々のアプローチは新たな状況に一般化できる。
論文 参考訳(メタデータ) (2020-10-27T17:41:57Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。