論文の概要: Meta-Value Learning: a General Framework for Learning with Learning
Awareness
- arxiv url: http://arxiv.org/abs/2307.08863v2
- Date: Mon, 4 Sep 2023 13:46:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 04:05:36.140837
- Title: Meta-Value Learning: a General Framework for Learning with Learning
Awareness
- Title(参考訳): メタバリュー学習 : 学習意識を持つ学習のための汎用フレームワーク
- Authors: Tim Cooijmans, Milad Aghajohari, Aaron Courville
- Abstract要約: メタバリューによって測定された長期的展望によって共同政策を判断することを提案する。
最適化のメタゲームにQラーニングの形式を適用し、ポリシー更新の連続的な行動空間を明示的に表現する必要がないようにする。
- 参考スコア(独自算出の注目度): 1.4323566945483497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient-based learning in multi-agent systems is difficult because the
gradient derives from a first-order model which does not account for the
interaction between agents' learning processes. LOLA (arXiv:1709.04326)
accounts for this by differentiating through one step of optimization. We
propose to judge joint policies by their long-term prospects as measured by the
meta-value, a discounted sum over the returns of future optimization iterates.
We apply a form of Q-learning to the meta-game of optimization, in a way that
avoids the need to explicitly represent the continuous action space of policy
updates. The resulting method, MeVa, is consistent and far-sighted, and does
not require REINFORCE estimators. We analyze the behavior of our method on a
toy game and compare to prior work on repeated matrix games.
- Abstract(参考訳): マルチエージェントシステムにおける勾配ベースの学習は、エージェントの学習プロセス間の相互作用を考慮しない一階モデルに由来するため、難しい。
LOLA (arXiv:1709.04326) は最適化の一段階を微分することでこれを説明している。
本稿では, 将来の最適化のリターンに対する割引金額であるメタ値を用いて, 長期的見通しで共同政策を判断することを提案する。
ポリシー更新の継続的アクション空間を明示的に表現する必要をなくす方法で、最適化のメタゲームにq-learningの形式を適用する。
結果、MeVaは一貫性があり、遠目であり、REINFORCE推定器を必要としない。
玩具ゲームにおける本手法の挙動を解析し,反復行列ゲームにおける先行作業と比較する。
関連論文リスト
- Rethinking Meta-Learning from a Learning Lens [17.00587250127854]
我々は、メタ学習の戦略を学ぶためのより基本的な学習に焦点を当て、環境を変えることなく、エラーの原因とこれらのエラーの除去方法を探る。
本稿では,メタ学習の最適化プロセスに対するタスク関係の利用を提案し,その目的を達成するために,TRLearner(Task Relation Learner)と呼ばれるプラグアンドプレイ手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T02:00:16Z) - Meta Mirror Descent: Optimiser Learning for Fast Convergence [85.98034682899855]
我々は、勾配降下ではなくミラー降下から始まり、対応するブレグマン発散をメタラーニングする。
このパラダイム内では、後悔の限界を最小化するための新しいメタ学習目標を定式化する。
多くのメタ学習オプティマイザとは異なり、収束と一般化の保証もサポートしており、検証データを必要としない。
論文 参考訳(メタデータ) (2022-03-05T11:41:13Z) - Continuous-Time Meta-Learning with Forward Mode Differentiation [65.26189016950343]
本稿では,勾配ベクトル場の力学に適応するメタ学習アルゴリズムであるContinuous Meta-Learning(COMLN)を紹介する。
学習プロセスをODEとして扱うことは、軌跡の長さが現在連続しているという顕著な利点を提供する。
本稿では,実行時とメモリ使用時の効率を実証的に示すとともに,いくつかの画像分類問題に対して有効性を示す。
論文 参考訳(メタデータ) (2022-03-02T22:35:58Z) - One Step at a Time: Pros and Cons of Multi-Step Meta-Gradient
Reinforcement Learning [61.662504399411695]
より正確でロバストなメタ勾配信号を持つ複数の内部ステップを混合する新しい手法を提案する。
Snakeゲームに適用した場合、混合メタグラディエントアルゴリズムは、類似または高い性能を達成しつつ、その分散を3倍に削減することができる。
論文 参考訳(メタデータ) (2021-10-30T08:36:52Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Bootstrapped Meta-Learning [48.017607959109924]
本稿では,メタ学習者が自らを教えることによって,メタ最適化問題に挑戦するアルゴリズムを提案する。
アルゴリズムはまずメタラーナーからターゲットをブートストラップし、選択した(擬似)測度の下でそのターゲットまでの距離を最小化することでメタラーナーを最適化する。
我々は、Atari ALEベンチマークでモデルフリーエージェントの新たな最先端技術を実現し、数ショットの学習においてMAMLを改善し、我々のアプローチがいかに新しい可能性を開くかを実証する。
論文 参考訳(メタデータ) (2021-09-09T18:29:05Z) - A contrastive rule for meta-learning [1.3124513975412255]
メタ学習アルゴリズムは、一連のタスクに存在する正規性を活用して、補助学習プロセスのパフォーマンスを高速化し改善する。
平衡伝播に基づく勾配に基づくメタラーニングアルゴリズムを提案する。
我々は、その性能に関する理論的境界を確立し、標準ベンチマークとニューラルネットワークアーキテクチャのセットで実験を行う。
論文 参考訳(メタデータ) (2021-04-04T19:45:41Z) - Modeling and Optimization Trade-off in Meta-learning [23.381986209234164]
メタラーニングにおいて、正確なモデリングと容易さのトレードオフを導入し、厳密に定義する。
我々はMAMLを代表的メタラーニングアルゴリズムとして、一般的な非リスク関数と線形回帰のトレードオフを理論的に特徴づける。
また,メタ強化学習ベンチマークのトレードオフを実証的に解決する。
論文 参考訳(メタデータ) (2020-10-24T15:32:08Z) - Fast Few-Shot Classification by Few-Iteration Meta-Learning [173.32497326674775]
数ショット分類のための高速な最適化に基づくメタラーニング手法を提案する。
我々の戦略はメタ学習において学習すべき基礎学習者の目的の重要な側面を可能にする。
我々は、我々のアプローチの速度と効果を実証し、総合的な実験分析を行う。
論文 参考訳(メタデータ) (2020-10-01T15:59:31Z) - Multi-step Estimation for Gradient-based Meta-learning [3.4376560669160385]
内部ステップの窓において,同じ勾配を再利用してコストを削減できる簡易かつ簡単な手法を提案する。
本手法は,トレーニング時間やメモリ使用量を大幅に削減し,競争精度を維持したり,場合によっては性能が向上することを示す。
論文 参考訳(メタデータ) (2020-06-08T00:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。