論文の概要: A Comparison of Self-Play Algorithms Under a Generalized Framework
- arxiv url: http://arxiv.org/abs/2006.04471v1
- Date: Mon, 8 Jun 2020 11:02:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 02:19:08.602489
- Title: A Comparison of Self-Play Algorithms Under a Generalized Framework
- Title(参考訳): 一般化フレームワークによるセルフプレイアルゴリズムの比較
- Authors: Daniel Hernandez, Kevin Denamganai, Sam Devlin, Spyridon Samothrakis,
James Alfred Walker
- Abstract要約: マルチエージェント強化学習(英語版)でしばしば言及されるセルフプレイの概念は、形式的なモデルでは基礎付けられていない。
我々は,自己表現の意味をカプセル化した,明確に定義された仮定を持つ形式化された枠組みを提案する。
得られた自己再生手法のサブセットが、有名なPPOアルゴリズムと組み合わせることで、この解をいかにうまく近似するかを測定する。
- 参考スコア(独自算出の注目度): 4.339542790745868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Throughout scientific history, overarching theoretical frameworks have
allowed researchers to grow beyond personal intuitions and culturally biased
theories. They allow to verify and replicate existing findings, and to link is
connected results. The notion of self-play, albeit often cited in multiagent
Reinforcement Learning, has never been grounded in a formal model. We present a
formalized framework, with clearly defined assumptions, which encapsulates the
meaning of self-play as abstracted from various existing self-play algorithms.
This framework is framed as an approximation to a theoretical solution concept
for multiagent training. On a simple environment, we qualitatively measure how
well a subset of the captured self-play methods approximate this solution when
paired with the famous PPO algorithm. We also provide insights on interpreting
quantitative metrics of performance for self-play training. Our results
indicate that, throughout training, various self-play definitions exhibit
cyclic policy evolutions.
- Abstract(参考訳): 科学史を通じて、包括的な理論の枠組みにより、研究者は個人的な直観や文化的に偏った理論を越えて成長することができた。
既存の発見を検証し、複製し、接続された結果をリンクすることができる。
マルチエージェント強化学習でしばしば引用される自己遊びの概念は、形式的モデルに基づかない。
我々は,既存の様々な自己遊びアルゴリズムから抽象化された自己遊びの意味をカプセル化した,明確な仮定を持つ形式化されたフレームワークを提案する。
このフレームワークは、マルチエージェントトレーニングのための理論解の概念の近似として構成されている。
簡単な環境では、キャプチャーされた自己再生手法のサブセットが、有名なPPOアルゴリズムと組み合わせることで、この解をいかにうまく近似するかを定性的に測定する。
また、セルフプレイトレーニングのパフォーマンスの定量的指標の解釈に関する洞察も提供する。
以上の結果から, 学習を通じて, 様々なセルフプレイ定義が周期的な政策進化を示すことが示唆された。
関連論文リスト
- A Survey on Self-play Methods in Reinforcement Learning [30.17222344626277]
エージェントとコピーや過去のバージョンとの相互作用を特徴とするセルフプレイは、近年、強化学習において注目されている。
本稿では,マルチエージェント強化学習フレームワークやゲーム理論の基本概念を含む,自己プレイの予備的概念を明らかにする。
統合されたフレームワークを提供し、このフレームワーク内で既存のセルフプレイアルゴリズムを分類する。
論文 参考訳(メタデータ) (2024-08-02T07:47:51Z) - A Unifying Framework for Action-Conditional Self-Predictive Reinforcement Learning [48.59516337905877]
優れた表現を学ぶことは、強化学習(RL)エージェントにとって重要な課題である。
近年の研究では、これらのアルゴリズムに関する理論的洞察が生まれている。
我々は,行動条件の自己予測的目的を分析することによって,理論と実践のギャップを埋める一歩を踏み出した。
論文 参考訳(メタデータ) (2024-06-04T07:22:12Z) - A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Bridging State and History Representations: Understanding Self-Predictive RL [24.772140132462468]
マルコフ決定過程(MDPs)と部分的に観測可能なマルコフ決定過程(POMDPs)のすべての強化学習(RL)手法の中核に表現がある
状態と歴史を抽象化するこれらの明らかに異なる方法やフレームワークの多くは、実際、自己予測的抽象化の共通概念に基づいています。
我々は、自己予測表現の学習において、停止段階技術のような広く採用されている目的と最適化に関する理論的洞察を提供する。
論文 参考訳(メタデータ) (2024-01-17T00:47:43Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - Semi-supervised learning made simple with self-supervised clustering [65.98152950607707]
自己教師付き学習モデルは、人間のアノテーションを必要とせずにリッチな視覚表現を学習することが示されている。
本稿では,クラスタリングに基づく自己教師付き手法を半教師付き学習者へと変換する,概念的に単純だが経験的に強力な手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T01:09:18Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Metrics and continuity in reinforcement learning [34.10996560464196]
メトリクスのレンズを通してトポロジを定義するために統一的な定式化を導入する。
我々はこれらの指標の階層を確立し、マルコフ決定過程にその理論的意味を実証する。
考察した指標間の差異を示す実証的な評価で理論結果を補完する。
論文 参考訳(メタデータ) (2021-02-02T14:30:41Z) - Instance-Based Learning of Span Representations: A Case Study through
Named Entity Recognition [48.06319154279427]
本研究では,スパン間の類似性を学習するインスタンスベースの学習手法を提案する。
本手法では,性能を犠牲にすることなく高い解釈性を持つモデルを構築することができる。
論文 参考訳(メタデータ) (2020-04-29T23:32:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。