論文の概要: Meta-Value Learning: a General Framework for Learning with Learning
Awareness
- arxiv url: http://arxiv.org/abs/2307.08863v1
- Date: Mon, 17 Jul 2023 21:40:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 17:10:42.194783
- Title: Meta-Value Learning: a General Framework for Learning with Learning
Awareness
- Title(参考訳): メタバリュー学習 : 学習意識を持つ学習のための汎用フレームワーク
- Authors: Tim Cooijmans, Milad Aghajohari, Aaron Courville
- Abstract要約: 我々はメタ値の勾配が元の目的の勾配よりも信頼性の高い改善方向を与えると主張している。
エージェントがメタ値の勾配に従う最適化軌道に沿って、ニューラルネットワークをトレーニングしてTD誤差を最小限に抑えることにより、メタ値を近似する方法を示す。
- 参考スコア(独自算出の注目度): 0.2578242050187029
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient-based learning in multi-agent systems is difficult because the
gradient derives from a first-order model which does not account for the
interaction between agents' learning processes. LOLA (arXiv:1709.04326)
accounts for this by differentiating through one step of optimization. We
extend the ideas of LOLA and develop a fully-general value-based approach to
optimization. At the core is a function we call the meta-value, which at each
point in joint-policy space gives for each agent a discounted sum of its
objective over future optimization steps. We argue that the gradient of the
meta-value gives a more reliable improvement direction than the gradient of the
original objective, because the meta-value derives from empirical observations
of the effects of optimization. We show how the meta-value can be approximated
by training a neural network to minimize TD error along optimization
trajectories in which agents follow the gradient of the meta-value. We analyze
the behavior of our method on the Logistic Game and on the Iterated Prisoner's
Dilemma.
- Abstract(参考訳): マルチエージェントシステムにおける勾配ベースの学習は、エージェントの学習プロセス間の相互作用を考慮しない一階モデルに由来するため、難しい。
LOLA (arXiv:1709.04326) は最適化の一段階を微分することでこれを説明している。
LOLAの考え方を拡張し、最適化のための完全に汎用的な価値ベースアプローチを開発する。
中心となる関数はメタ値と呼ばれ、これは共同政治空間の各点において、将来の最適化ステップよりも各エージェントの目的の割引された和を与える。
メタ値の勾配は、最適化の効果を経験的に観察した結果から、元の目的の勾配よりも信頼性の高い改善方向を与えると論じる。
エージェントがメタ値の勾配に従う最適化軌跡に沿ってtd誤差を最小化するためにニューラルネットワークを訓練することで、メタ値の近似方法を示す。
我々は,ロジスティックゲームと反復囚人ジレンマにおける手法の挙動を解析した。
関連論文リスト
- Rethinking Meta-Learning from a Learning Lens [17.00587250127854]
我々は、メタ学習の戦略を学ぶためのより基本的な学習に焦点を当て、環境を変えることなく、エラーの原因とこれらのエラーの除去方法を探る。
本稿では,メタ学習の最適化プロセスに対するタスク関係の利用を提案し,その目的を達成するために,TRLearner(Task Relation Learner)と呼ばれるプラグアンドプレイ手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T02:00:16Z) - Meta Mirror Descent: Optimiser Learning for Fast Convergence [85.98034682899855]
我々は、勾配降下ではなくミラー降下から始まり、対応するブレグマン発散をメタラーニングする。
このパラダイム内では、後悔の限界を最小化するための新しいメタ学習目標を定式化する。
多くのメタ学習オプティマイザとは異なり、収束と一般化の保証もサポートしており、検証データを必要としない。
論文 参考訳(メタデータ) (2022-03-05T11:41:13Z) - Continuous-Time Meta-Learning with Forward Mode Differentiation [65.26189016950343]
本稿では,勾配ベクトル場の力学に適応するメタ学習アルゴリズムであるContinuous Meta-Learning(COMLN)を紹介する。
学習プロセスをODEとして扱うことは、軌跡の長さが現在連続しているという顕著な利点を提供する。
本稿では,実行時とメモリ使用時の効率を実証的に示すとともに,いくつかの画像分類問題に対して有効性を示す。
論文 参考訳(メタデータ) (2022-03-02T22:35:58Z) - One Step at a Time: Pros and Cons of Multi-Step Meta-Gradient
Reinforcement Learning [61.662504399411695]
より正確でロバストなメタ勾配信号を持つ複数の内部ステップを混合する新しい手法を提案する。
Snakeゲームに適用した場合、混合メタグラディエントアルゴリズムは、類似または高い性能を達成しつつ、その分散を3倍に削減することができる。
論文 参考訳(メタデータ) (2021-10-30T08:36:52Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Bootstrapped Meta-Learning [48.017607959109924]
本稿では,メタ学習者が自らを教えることによって,メタ最適化問題に挑戦するアルゴリズムを提案する。
アルゴリズムはまずメタラーナーからターゲットをブートストラップし、選択した(擬似)測度の下でそのターゲットまでの距離を最小化することでメタラーナーを最適化する。
我々は、Atari ALEベンチマークでモデルフリーエージェントの新たな最先端技術を実現し、数ショットの学習においてMAMLを改善し、我々のアプローチがいかに新しい可能性を開くかを実証する。
論文 参考訳(メタデータ) (2021-09-09T18:29:05Z) - A contrastive rule for meta-learning [1.3124513975412255]
メタ学習アルゴリズムは、一連のタスクに存在する正規性を活用して、補助学習プロセスのパフォーマンスを高速化し改善する。
平衡伝播に基づく勾配に基づくメタラーニングアルゴリズムを提案する。
我々は、その性能に関する理論的境界を確立し、標準ベンチマークとニューラルネットワークアーキテクチャのセットで実験を行う。
論文 参考訳(メタデータ) (2021-04-04T19:45:41Z) - Modeling and Optimization Trade-off in Meta-learning [23.381986209234164]
メタラーニングにおいて、正確なモデリングと容易さのトレードオフを導入し、厳密に定義する。
我々はMAMLを代表的メタラーニングアルゴリズムとして、一般的な非リスク関数と線形回帰のトレードオフを理論的に特徴づける。
また,メタ強化学習ベンチマークのトレードオフを実証的に解決する。
論文 参考訳(メタデータ) (2020-10-24T15:32:08Z) - Fast Few-Shot Classification by Few-Iteration Meta-Learning [173.32497326674775]
数ショット分類のための高速な最適化に基づくメタラーニング手法を提案する。
我々の戦略はメタ学習において学習すべき基礎学習者の目的の重要な側面を可能にする。
我々は、我々のアプローチの速度と効果を実証し、総合的な実験分析を行う。
論文 参考訳(メタデータ) (2020-10-01T15:59:31Z) - Multi-step Estimation for Gradient-based Meta-learning [3.4376560669160385]
内部ステップの窓において,同じ勾配を再利用してコストを削減できる簡易かつ簡単な手法を提案する。
本手法は,トレーニング時間やメモリ使用量を大幅に削減し,競争精度を維持したり,場合によっては性能が向上することを示す。
論文 参考訳(メタデータ) (2020-06-08T00:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。