論文の概要: Discovering Temporally-Aware Reinforcement Learning Algorithms
- arxiv url: http://arxiv.org/abs/2402.05828v1
- Date: Thu, 8 Feb 2024 17:07:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 13:48:13.405320
- Title: Discovering Temporally-Aware Reinforcement Learning Algorithms
- Title(参考訳): 時間対応強化学習アルゴリズムの発見
- Authors: Matthew Thomas Jackson, Chris Lu, Louis Kirsch, Robert Tjarko Lange,
Shimon Whiteson, Jakob Nicolaus Foerster
- Abstract要約: 既存の2つの目的発見アプローチに簡単な拡張を提案する。
一般的に使用されるメタ段階的アプローチは適応的目的関数の発見に失敗する。
- 参考スコア(独自算出の注目度): 42.016150906831776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in meta-learning have enabled the automatic discovery of
novel reinforcement learning algorithms parameterized by surrogate objective
functions. To improve upon manually designed algorithms, the parameterization
of this learned objective function must be expressive enough to represent novel
principles of learning (instead of merely recovering already established ones)
while still generalizing to a wide range of settings outside of its
meta-training distribution. However, existing methods focus on discovering
objective functions that, like many widely used objective functions in
reinforcement learning, do not take into account the total number of steps
allowed for training, or "training horizon". In contrast, humans use a plethora
of different learning objectives across the course of acquiring a new ability.
For instance, students may alter their studying techniques based on the
proximity to exam deadlines and their self-assessed capabilities. This paper
contends that ignoring the optimization time horizon significantly restricts
the expressive potential of discovered learning algorithms. We propose a simple
augmentation to two existing objective discovery approaches that allows the
discovered algorithm to dynamically update its objective function throughout
the agent's training procedure, resulting in expressive schedules and increased
generalization across different training horizons. In the process, we find that
commonly used meta-gradient approaches fail to discover such adaptive objective
functions while evolution strategies discover highly dynamic learning rules. We
demonstrate the effectiveness of our approach on a wide range of tasks and
analyze the resulting learned algorithms, which we find effectively balance
exploration and exploitation by modifying the structure of their learning rules
throughout the agent's lifetime.
- Abstract(参考訳): 近年のメタラーニングの進歩により、目的関数を代用した新しい強化学習アルゴリズムの自動発見が可能となった。
手動で設計したアルゴリズムを改善するために、この学習対象関数のパラメータ化は、メタトレーニング分布以外の幅広い設定に一般化しつつも、学習の新たな原則(単に確立済みのものを回復するだけでなく)を表現するのに十分な表現力を持つ必要がある。
しかし、既存の手法では、強化学習における多くの広く使われている目的関数と同様に、訓練に許されるステップの総数や「訓練地平線」を考慮していない目的関数の発見に重点を置いている。
対照的に、人間は新たな能力を獲得する過程で、さまざまな学習目標を多用している。
例えば、学生は試験期限の近さや自己評価能力に基づいて学習技術を変更することができる。
本稿では,最適化の時間軸を無視することで,探索学習アルゴリズムの表現能力が著しく制限されることを示す。
提案手法は,エージェントの訓練手順を通じて,目的関数を動的に更新し,表現的なスケジュールと,異なる訓練地平線をまたいだ一般化を実現するための,既存の2つの目的探索手法に対する簡易な拡張を提案する。
この過程では、進化戦略が高度にダイナミックな学習規則を発見する一方で、一般的に使用されるメタ勾配アプローチはこのような適応的客観的関数を発見できないことが分かる。
エージェントの生涯を通して,学習ルールの構造を変更することで,探索と利用のバランスを効果的に保ちながら,学習したアルゴリズムを解析し,幅広いタスクに対するアプローチの有効性を実証する。
関連論文リスト
- Meta-Learning Neural Procedural Biases [9.876317838854018]
我々は、メタ学習タスクの手続きバイアスを考慮に入れた新しいフレームワークであるNeural Procedural Bias Meta-Learningを提案する。
ニューラルネットワークの手続き的バイアスをメタラーニングすることにより、学習タスクの分布に対して強い帰納的バイアスを生じさせ、よく確立された数発の学習ベンチマークで堅牢な学習性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-06-12T08:09:29Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Meta-Learning Strategies through Value Maximization in Neural Networks [7.285835869818669]
完全に規範的な目的に対して制御信号を効率よく最適化できる学習活動フレームワークを提案する。
本稿では,一般的なメタ学習アルゴリズムにおける近似の影響について検討する。
設定全体では、学習の早い段階でタスクの容易な側面に適用する場合、制御の取り組みが最も有益であることが分かります。
論文 参考訳(メタデータ) (2023-10-30T18:29:26Z) - Efficient Meta Reinforcement Learning for Preference-based Fast
Adaptation [17.165083095799712]
本研究では,ループ内強化学習の文脈における少数ショット適応の問題について検討する。
そこで我々は,嗜好に基づくフィードバックによる迅速なポリシー適応を実現するメタRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-11-20T03:55:09Z) - Hierarchically Structured Task-Agnostic Continual Learning [0.0]
本研究では,連続学習のタスク非依存的な視点を取り入れ,階層的情報理論の最適性原理を考案する。
我々は,情報処理経路の集合を作成することで,忘れを緩和する,Mixture-of-Variational-Experts層と呼ばれるニューラルネットワーク層を提案する。
既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない。
論文 参考訳(メタデータ) (2022-11-14T19:53:15Z) - Meta-learning the Learning Trends Shared Across Tasks [123.10294801296926]
グラディエントベースのメタ学習アルゴリズムは、限られたデータで新しいタスクに素早く適応する。
既存のメタ学習アプローチは、適応中の現在のタスク情報にのみ依存する。
パターン認識型メタラーニング手法を提案する。
論文 参考訳(メタデータ) (2020-10-19T08:06:47Z) - Meta-Gradient Reinforcement Learning with an Objective Discovered Online [54.15180335046361]
本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。
目的はオンラインで発見されるため、時間とともに変化に適応することができる。
Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
論文 参考訳(メタデータ) (2020-07-16T16:17:09Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Incremental Object Detection via Meta-Learning [77.55310507917012]
本稿では,段階的タスク間の情報を最適に共有するように,モデル勾配を再形成するメタラーニング手法を提案する。
既存のメタ学習法と比較して,本手法はタスク非依存であり,オブジェクト検出のための高容量モデルに新たなクラスやスケールを段階的に追加することができる。
論文 参考訳(メタデータ) (2020-03-17T13:40:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。