論文の概要: Meta-Gradients in Non-Stationary Environments
- arxiv url: http://arxiv.org/abs/2209.06159v1
- Date: Tue, 13 Sep 2022 17:05:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 13:03:44.315736
- Title: Meta-Gradients in Non-Stationary Environments
- Title(参考訳): 非定常環境におけるメタグラディエント
- Authors: Jelena Luketina, Sebastian Flennerhag, Yannick Schroecker, David Abel,
Tom Zahavy, Satinder Singh
- Abstract要約: 非定常環境におけるメタグラディエントの性質について検討する。
より多くのコンテキスト情報を追加することは、一般的に有益である。
以上の結果から, 文脈的メタグラディエントは, 高い性能の抽出において重要な役割を担っていることが示唆された。
- 参考スコア(独自算出の注目度): 38.78238492460551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Meta-gradient methods (Xu et al., 2018; Zahavy et al., 2020) offer a
promising solution to the problem of hyperparameter selection and adaptation in
non-stationary reinforcement learning problems. However, the properties of
meta-gradients in such environments have not been systematically studied. In
this work, we bring new clarity to meta-gradients in non-stationary
environments. Concretely, we ask: (i) how much information should be given to
the learned optimizers, so as to enable faster adaptation and generalization
over a lifetime, (ii) what meta-optimizer functions are learned in this
process, and (iii) whether meta-gradient methods provide a bigger advantage in
highly non-stationary environments. To study the effect of information provided
to the meta-optimizer, as in recent works (Flennerhag et al., 2021; Almeida et
al., 2021), we replace the tuned meta-parameters of fixed update rules with
learned meta-parameter functions of selected context features. The context
features carry information about agent performance and changes in the
environment and hence can inform learned meta-parameter schedules. We find that
adding more contextual information is generally beneficial, leading to faster
adaptation of meta-parameter values and increased performance over a lifetime.
We support these results with a qualitative analysis of resulting
meta-parameter schedules and learned functions of context features. Lastly, we
find that without context, meta-gradients do not provide a consistent advantage
over the baseline in highly non-stationary environments. Our findings suggest
that contextualizing meta-gradients can play a pivotal role in extracting high
performance from meta-gradients in non-stationary settings.
- Abstract(参考訳): メタグラディエント手法 (Xu et al., 2018; Zahavy et al., 2020) は、非定常強化学習問題におけるハイパーパラメータ選択と適応の問題に対する有望な解決策を提供する。
しかし,このような環境におけるメタ勾配の性質は体系的に研究されていない。
本研究では,非定常環境におけるメタグレードに新たな明快さをもたらす。
具体的に言えば
(i)学習したオプティマイザにどの程度の情報を与えることで、生涯にわたってより迅速な適応と一般化を可能にするか。
(二)この過程でメタ最適化関数が学習されるもの、及び
三 メタグラディエント法が非定常環境においてより大きな利点をもたらすか否か。
最近の研究(Flennerhag et al., 2021; Almeida et al., 2021)のようにメタ最適化器に提供される情報の影響を調べるため、固定更新規則の調整されたメタパラメータを、選択した文脈特徴のメタパラメータ関数に置き換える。
コンテキスト機能はエージェントのパフォーマンスや環境の変化に関する情報を持ち、学習したメタパラメータのスケジュールを知らせる。
コンテキスト情報の追加は一般的に有益であり、メタパラメータ値の適応が早くなり、生涯にわたってパフォーマンスが向上する。
これらの結果に対して,メタパラメータのスケジュールとコンテキスト特徴の学習関数の質的解析を行った。
最後に、文脈のないメタグラディエントは、非定常環境におけるベースラインに対して一貫した優位性を提供しない。
以上の結果から,非定常環境では,メタグレードからハイパフォーマンスを抽出する上で,メタグレードの文脈化が重要な役割を果たすことが示唆された。
関連論文リスト
- Can Learned Optimization Make Reinforcement Learning Less Difficult? [70.5036361852812]
学習の最適化が強化学習の難しさを克服するのに役立つかどうかを検討する。
本稿では, 塑性, 探索および非定常性のための学習最適化手法(OPEN)を用いて, 入力特性と出力構造がこれらの困難に対して予め提案された情報によって通知される更新規則をメタラーニングする。
論文 参考訳(メタデータ) (2024-07-09T17:55:23Z) - Retrieval-Augmented Meta Learning for Low-Resource Text Classification [22.653220906899612]
検索型メタ学習(RAML)というメタ学習手法を提案する。
推論にはパラメータ化を使用するが、外部コーパスから非パラメトリック知識を取得して推論を行う。
RAMLは、現在のSOTA低リソーステキスト分類モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-09-10T10:05:03Z) - Gradient-based Bi-level Optimization for Deep Learning: A Survey [14.39891675968109]
双方向最適化、特に勾配に基づくカテゴリは、ディープラーニングコミュニティで広く使われている。
まず、勾配に基づく二段階最適化の形式的定義を与える。
次に、外部変数を更新するための2段階最適化問題を4つ議論する。
論文 参考訳(メタデータ) (2022-07-24T11:23:31Z) - Dynamic Regret Analysis for Online Meta-Learning [0.0]
オンラインメタ学習フレームワークは、継続的な生涯学習設定のための強力なツールとして生まれてきた。
この定式化には、メタラーナーを学ぶ外部レベルと、タスク固有のモデルを学ぶ内部レベルという2つのレベルが含まれる。
グローバルな予測から環境の変化を扱う動的な後悔という観点から、パフォーマンスを確立します。
本稿では,本分析を1つの設定で実施し,各イテレーションの総数に依存する局所的局所的後悔の対数論的証明を期待する。
論文 参考訳(メタデータ) (2021-09-29T12:12:59Z) - Learning an Explicit Hyperparameter Prediction Function Conditioned on
Tasks [62.63852372239708]
メタ学習は、観察されたタスクから機械学習の学習方法論を学び、新しいクエリタスクに一般化することを目的としている。
我々は、これらの学習手法を、全てのトレーニングタスクで共有される明示的なハイパーパラメータ予測関数の学習として解釈する。
このような設定は、メタ学習方法論が多様なクエリタスクに柔軟に適合できることを保証する。
論文 参考訳(メタデータ) (2021-07-06T04:05:08Z) - Large-Scale Meta-Learning with Continual Trajectory Shifting [76.29017270864308]
メタリアナーがより多くの内部勾配ステップをとれるようにすることで、ヘテロジニアスタスクや大規模タスクの構造をよりよく把握できることを示す。
メタ更新の頻度を増やすために、タスク固有のパラメータの必要なシフトを推定することを提案する。
このアルゴリズムは, 一般化性能と収束性の両方において, 先行する一階メタ学習法を大きく上回っていることを示す。
論文 参考訳(メタデータ) (2021-02-14T18:36:33Z) - The Advantage of Conditional Meta-Learning for Biased Regularization and
Fine-Tuning [50.21341246243422]
バイアスレギュラー化と微調整は、最近の2つのメタラーニングアプローチである。
本稿では,条件付き関数マッピングタスクの側情報をメタパラメータベクトルに推論する条件付きメタラーニングを提案する。
次に、実際には同等の利点をもたらす凸メタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-25T07:32:16Z) - Guarantees for Tuning the Step Size using a Learning-to-Learn Approach [18.838453594698166]
ステップサイズを2次的損失に調整する簡単な問題に対して、学習から学習までのアプローチに対してメタ最適化を保証する。
メタ・グラディエント・オブジェクトを設計してメタ・グラディエントを束縛したままにしておく方法はあるが、バックプロパゲーションを用いて直接メタ・グラディエントを計算すれば、数値的な問題が発生する。
また,メタオブジェクトを別個の検証セットで計算し,学習性能を確保する必要がある場合の特徴付けを行う。
論文 参考訳(メタデータ) (2020-06-30T02:59:35Z) - Incremental Object Detection via Meta-Learning [77.55310507917012]
本稿では,段階的タスク間の情報を最適に共有するように,モデル勾配を再形成するメタラーニング手法を提案する。
既存のメタ学習法と比較して,本手法はタスク非依存であり,オブジェクト検出のための高容量モデルに新たなクラスやスケールを段階的に追加することができる。
論文 参考訳(メタデータ) (2020-03-17T13:40:00Z) - Curriculum in Gradient-Based Meta-Reinforcement Learning [10.447238563837173]
勾配に基づくメタラーナーはタスク分布に敏感であることを示す。
間違ったカリキュラムでは、エージェントはメタオーバーフィッティング、浅い適応、適応不安定の影響を被る。
論文 参考訳(メタデータ) (2020-02-19T01:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。