論文の概要: Model-Free Opponent Shaping
- arxiv url: http://arxiv.org/abs/2205.01447v1
- Date: Tue, 3 May 2022 12:20:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 18:46:46.761971
- Title: Model-Free Opponent Shaping
- Title(参考訳): モデルフリー応答整形
- Authors: Chris Lu, Timon Willi, Christian Schroeder de Witt, Jakob Foerster
- Abstract要約: 汎用ゲームのためのM-FOS(Model-Free Opponent Shaping)を提案する。
M-FOSはメタゲームで学習し、各メタステップは根底にある「インナー」ゲームのエピソードである。
文学的な学習者や、より洗練されたアルゴリズムを駆使している。
- 参考スコア(独自算出の注目度): 1.433758865948252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In general-sum games, the interaction of self-interested learning agents
commonly leads to collectively worst-case outcomes, such as defect-defect in
the iterated prisoner's dilemma (IPD). To overcome this, some methods, such as
Learning with Opponent-Learning Awareness (LOLA), shape their opponents'
learning process. However, these methods are myopic since only a small number
of steps can be anticipated, are asymmetric since they treat other agents as
naive learners, and require the use of higher-order derivatives, which are
calculated through white-box access to an opponent's differentiable learning
algorithm. To address these issues, we propose Model-Free Opponent Shaping
(M-FOS). M-FOS learns in a meta-game in which each meta-step is an episode of
the underlying ("inner") game. The meta-state consists of the inner policies,
and the meta-policy produces a new inner policy to be used in the next episode.
M-FOS then uses generic model-free optimisation methods to learn meta-policies
that accomplish long-horizon opponent shaping. Empirically, M-FOS
near-optimally exploits naive learners and other, more sophisticated algorithms
from the literature. For example, to the best of our knowledge, it is the first
method to learn the well-known Zero-Determinant (ZD) extortion strategy in the
IPD. In the same settings, M-FOS leads to socially optimal outcomes under
meta-self-play. Finally, we show that M-FOS can be scaled to high-dimensional
settings.
- Abstract(参考訳): 一般のゲームでは、自己関心の学習エージェントの相互作用は、一般的に、反復された囚人のジレンマ(IPD)の欠陥欠陥など、最悪の結果をもたらす。
これを克服するために、対人学習意識(lola)による学習などいくつかの方法は、対人学習プロセスを形作る。
しかしながら、これらの方法は、わずかなステップしか予測できないため、非対称であり、他のエージェントをナイーブな学習者として扱うためであり、敵の微分学習アルゴリズムへのホワイトボックスアクセスによって計算される高階微分を用いる必要がある。
これらの問題に対処するため,M-FOS(Model-Free Opponent Shaping)を提案する。
M-FOSはメタゲームで学習し、各メタステップは根底にある「インナー」ゲームのエピソードである。
メタステートは内部ポリシーで構成され、メタポリシーは次のエピソードで使用される新しい内部ポリシーを生成する。
次に、M-FOSはモデルなし最適化法を用いて、長軸対向の整形を実現するメタポリケーションを学習する。
実証的には、M-FOSは、文学の単純学習者やその他のより洗練されたアルゴリズムをほぼ最適に活用する。
例えば、私たちの知る限りでは、IDDにおいてよく知られたゼロ行列法(ZD)の歪曲戦略を学ぶための最初の方法である。
同じ設定で、M-FOSはメタセルフプレイの下で社会的に最適な結果をもたらす。
最後に,M-FOSを高次元設定に拡張可能であることを示す。
関連論文リスト
- Fast Adaptation with Kernel and Gradient based Meta Leaning [4.763682200721131]
モデルAメタラーニング(MAML)の内輪と外輪の両方を改善するための2つのアルゴリズムを提案する。
最初のアルゴリズムは関数空間の最適化問題を再定義し、閉形式解を用いてモデルを更新する。
外ループでは、内ループの各タスクの損失に重みを割り当てることで、第2のアルゴリズムがメタラーナーの学習を調整する。
論文 参考訳(メタデータ) (2024-11-01T07:05:03Z) - Analysing the Sample Complexity of Opponent Shaping [15.226375898939205]
一般サムゲームでの学習は、しばしば集合的な準最適結果をもたらす。
初期の対戦型シェーピング(OS)法では、高階微分を用いてコプレイヤーの学習を形作る。
M-FOS(M-free Opponent Shaping)は、OSの問題をメタゲームとして再定義することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-02-08T16:17:18Z) - Scaling Opponent Shaping to High Dimensional Games [17.27358464280679]
時間的に拡張されたアクションと長時間の水平線を持つ汎用ゲームに対するOSベースのアプローチを開発する。
文献からの難易度の設定において,Shaperは個人的,集団的成果の向上につながることを示す。
論文 参考訳(メタデータ) (2023-12-19T20:05:23Z) - Context-Aware Meta-Learning [52.09326317432577]
本研究では,大規模言語モデルのエミュレートを行うメタ学習アルゴリズムを提案する。
我々のアプローチは、11のメタラーニングベンチマークのうち8つで最先端のアルゴリズムであるP>M>Fを上回り、一致します。
論文 参考訳(メタデータ) (2023-10-17T03:35:27Z) - Meta-Value Learning: a General Framework for Learning with Learning
Awareness [1.4323566945483497]
メタバリューによって測定された長期的展望によって共同政策を判断することを提案する。
最適化のメタゲームにQラーニングの形式を適用し、ポリシー更新の連続的な行動空間を明示的に表現する必要がないようにする。
論文 参考訳(メタデータ) (2023-07-17T21:40:57Z) - Meta-Learning Adversarial Bandit Algorithms [55.72892209124227]
我々は,バンディットフィードバックを用いたオンラインメタラーニングについて研究する。
我々は自己協和障壁正規化器を用いてオンラインミラー降下一般化(OMD)をチューニングすることを学ぶ。
論文 参考訳(メタデータ) (2023-07-05T13:52:10Z) - Federated Learning and Meta Learning: Approaches, Applications, and
Directions [94.68423258028285]
本稿では,FL,メタラーニング,フェデレーションメタラーニング(FedMeta)について概観する。
他のチュートリアルと異なり、私たちの目標はFL、メタラーニング、FedMetaの方法論をどのように設計、最適化、進化させ、無線ネットワーク上で応用するかを探ることです。
論文 参考訳(メタデータ) (2022-10-24T10:59:29Z) - One Step at a Time: Pros and Cons of Multi-Step Meta-Gradient
Reinforcement Learning [61.662504399411695]
より正確でロバストなメタ勾配信号を持つ複数の内部ステップを混合する新しい手法を提案する。
Snakeゲームに適用した場合、混合メタグラディエントアルゴリズムは、類似または高い性能を達成しつつ、その分散を3倍に削減することができる。
論文 参考訳(メタデータ) (2021-10-30T08:36:52Z) - Bootstrapped Meta-Learning [48.017607959109924]
本稿では,メタ学習者が自らを教えることによって,メタ最適化問題に挑戦するアルゴリズムを提案する。
アルゴリズムはまずメタラーナーからターゲットをブートストラップし、選択した(擬似)測度の下でそのターゲットまでの距離を最小化することでメタラーナーを最適化する。
我々は、Atari ALEベンチマークでモデルフリーエージェントの新たな最先端技術を実現し、数ショットの学習においてMAMLを改善し、我々のアプローチがいかに新しい可能性を開くかを実証する。
論文 参考訳(メタデータ) (2021-09-09T18:29:05Z) - Meta-Gradient Reinforcement Learning with an Objective Discovered Online [54.15180335046361]
本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。
目的はオンラインで発見されるため、時間とともに変化に適応することができる。
Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
論文 参考訳(メタデータ) (2020-07-16T16:17:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。