論文の概要: Meta-trained agents implement Bayes-optimal agents
- arxiv url: http://arxiv.org/abs/2010.11223v1
- Date: Wed, 21 Oct 2020 18:05:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 22:32:46.260601
- Title: Meta-trained agents implement Bayes-optimal agents
- Title(参考訳): メタトレーニングエージェントによるベイズ最適化エージェントの実装
- Authors: Vladimir Mikulik, Gr\'egoire Del\'etang, Tom McGrath, Tim Genewein,
Miljan Martic, Shane Legg, Pedro A. Ortega
- Abstract要約: メモリベースメタラーニングはベイズ最適エージェントを数値的に近似する手法として有用であることを示す。
その結果,記憶に基づくメタラーニングはベイズ最適エージェントを数値的に近似する一般的な手法である可能性が示唆された。
- 参考スコア(独自算出の注目度): 13.572630988699572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Memory-based meta-learning is a powerful technique to build agents that adapt
fast to any task within a target distribution. A previous theoretical study has
argued that this remarkable performance is because the meta-training protocol
incentivises agents to behave Bayes-optimally. We empirically investigate this
claim on a number of prediction and bandit tasks. Inspired by ideas from
theoretical computer science, we show that meta-learned and Bayes-optimal
agents not only behave alike, but they even share a similar computational
structure, in the sense that one agent system can approximately simulate the
other. Furthermore, we show that Bayes-optimal agents are fixed points of the
meta-learning dynamics. Our results suggest that memory-based meta-learning
might serve as a general technique for numerically approximating Bayes-optimal
agents - that is, even for task distributions for which we currently don't
possess tractable models.
- Abstract(参考訳): メモリベースのメタ学習は、ターゲットディストリビューション内の任意のタスクに迅速に適応するエージェントを構築するための強力なテクニックである。
以前の理論的研究は、この顕著な性能は、メタトレーニングプロトコルがエージェントにベイズを最適に振舞う動機を与えるためであると主張している。
我々はこの主張を様々な予測や盗賊行為で実証的に調査する。
理論計算機科学のアイデアに触発されて,メタ学習エージェントとベイズ最適エージェントが同じように振る舞うだけでなく,同一の計算構造も共有することを示した。
さらに,ベイズ最適エージェントはメタ学習力学の固定点であることを示す。
以上の結果から,メモリベースのメタラーニングはベイズ最適エージェントを数値的に近似する一般的な手法である可能性が示唆された。
関連論文リスト
- ContraBAR: Contrastive Bayes-Adaptive Deep RL [22.649531458557206]
メタ強化学習(メタRL)では、エージェントが未知のタスクに直面するときの最適なポリシーであるベイズ最適ポリシーを求める。
ベイズ最適行動の学習にコントラスト法が有効かどうかを検討する。
本稿では,変分的信念推論の代わりにコントラスト的予測符号化(CPC)を用いる単純なメタRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-04T17:50:20Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Bayesian Meta-Learning Through Variational Gaussian Processes [0.0]
ガウス過程に基づくメタラーニングを拡張し、高品質で任意のガウス的でない不確実性予測を可能にする。
提案手法は,既存のベイズメタラーニングベースラインよりも優れている。
論文 参考訳(メタデータ) (2021-10-21T10:44:23Z) - Energy-Efficient and Federated Meta-Learning via Projected Stochastic
Gradient Ascent [79.58680275615752]
エネルギー効率のよいメタラーニングフレームワークを提案する。
各タスクは別々のエージェントによって所有されていると仮定するため、メタモデルをトレーニングするために限られたタスクが使用される。
論文 参考訳(メタデータ) (2021-05-31T08:15:44Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - Deep Interactive Bayesian Reinforcement Learning via Meta-Learning [63.96201773395921]
他のエージェントの戦略に対する不確実性下での最適適応行動は、インタラクティブベイズ強化学習フレームワークを用いて計算することができる。
本稿では,メタラーン近似的信念推論とベイズ最適行動を提案する。
提案手法は, モデルフリーアプローチ, 近似後部からのサンプル採取, 他者のメモリフリーモデル維持, あるいは環境の既知の構造を完全に活用しない既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T13:25:13Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。