論文の概要: A Comparison of Self-Play Algorithms Under a Generalized Framework
- arxiv url: http://arxiv.org/abs/2006.04471v1
- Date: Mon, 8 Jun 2020 11:02:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 02:19:08.602489
- Title: A Comparison of Self-Play Algorithms Under a Generalized Framework
- Title(参考訳): 一般化フレームワークによるセルフプレイアルゴリズムの比較
- Authors: Daniel Hernandez, Kevin Denamganai, Sam Devlin, Spyridon Samothrakis,
James Alfred Walker
- Abstract要約: マルチエージェント強化学習(英語版)でしばしば言及されるセルフプレイの概念は、形式的なモデルでは基礎付けられていない。
我々は,自己表現の意味をカプセル化した,明確に定義された仮定を持つ形式化された枠組みを提案する。
得られた自己再生手法のサブセットが、有名なPPOアルゴリズムと組み合わせることで、この解をいかにうまく近似するかを測定する。
- 参考スコア(独自算出の注目度): 4.339542790745868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Throughout scientific history, overarching theoretical frameworks have
allowed researchers to grow beyond personal intuitions and culturally biased
theories. They allow to verify and replicate existing findings, and to link is
connected results. The notion of self-play, albeit often cited in multiagent
Reinforcement Learning, has never been grounded in a formal model. We present a
formalized framework, with clearly defined assumptions, which encapsulates the
meaning of self-play as abstracted from various existing self-play algorithms.
This framework is framed as an approximation to a theoretical solution concept
for multiagent training. On a simple environment, we qualitatively measure how
well a subset of the captured self-play methods approximate this solution when
paired with the famous PPO algorithm. We also provide insights on interpreting
quantitative metrics of performance for self-play training. Our results
indicate that, throughout training, various self-play definitions exhibit
cyclic policy evolutions.
- Abstract(参考訳): 科学史を通じて、包括的な理論の枠組みにより、研究者は個人的な直観や文化的に偏った理論を越えて成長することができた。
既存の発見を検証し、複製し、接続された結果をリンクすることができる。
マルチエージェント強化学習でしばしば引用される自己遊びの概念は、形式的モデルに基づかない。
我々は,既存の様々な自己遊びアルゴリズムから抽象化された自己遊びの意味をカプセル化した,明確な仮定を持つ形式化されたフレームワークを提案する。
このフレームワークは、マルチエージェントトレーニングのための理論解の概念の近似として構成されている。
簡単な環境では、キャプチャーされた自己再生手法のサブセットが、有名なPPOアルゴリズムと組み合わせることで、この解をいかにうまく近似するかを定性的に測定する。
また、セルフプレイトレーニングのパフォーマンスの定量的指標の解釈に関する洞察も提供する。
以上の結果から, 学習を通じて, 様々なセルフプレイ定義が周期的な政策進化を示すことが示唆された。
関連論文リスト
- Bridging State and History Representations: Understanding
Self-Predictive RL [26.01435695133671]
マルコフ決定過程(MDPs)と部分的に観測可能なマルコフ決定過程(POMDPs)のすべての強化学習(RL)手法の中核に表現がある
状態と歴史を抽象化するこれらの明らかに異なる方法やフレームワークの多くは、実際、自己予測的抽象化の共通概念に基づいています。
我々は、自己予測表現の学習において、停止段階技術のような広く採用されている目的と最適化に関する理論的洞察を提供する。
論文 参考訳(メタデータ) (2024-01-17T00:47:43Z) - Semi-supervised learning made simple with self-supervised clustering [65.98152950607707]
自己教師付き学習モデルは、人間のアノテーションを必要とせずにリッチな視覚表現を学習することが示されている。
本稿では,クラスタリングに基づく自己教師付き手法を半教師付き学習者へと変換する,概念的に単純だが経験的に強力な手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T01:09:18Z) - Self-Supervised Multi-Object Tracking For Autonomous Driving From
Consistency Across Timescales [53.55369862746357]
自己管理型マルチオブジェクトトラッカーは、生のドメイン固有データから学習できるという大きな可能性を秘めている。
しかし、その再識別精度は、監督対象よりも低い。
本稿では,複数の連続フレームから再同定特徴を自己教師付きで学習できる学習目標を提案する。
論文 参考訳(メタデータ) (2023-04-25T20:47:29Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Syntactically Robust Training on Partially-Observed Data for Open
Information Extraction [25.59133746149343]
オープン情報抽出モデルは十分な監督力を持った有望な結果を示している。
そこで本研究では,統語論的に頑健な学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:39:13Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Towards the Generalization of Contrastive Self-Supervised Learning [11.889992921445849]
本稿では, 自己教師付き事前学習モデルが下流タスクにどのように一般化するかを理論的に説明する。
さらに,SimCLR と Barlow Twins についても検討する。
論文 参考訳(メタデータ) (2021-11-01T07:39:38Z) - Metrics and continuity in reinforcement learning [34.10996560464196]
メトリクスのレンズを通してトポロジを定義するために統一的な定式化を導入する。
我々はこれらの指標の階層を確立し、マルコフ決定過程にその理論的意味を実証する。
考察した指標間の差異を示す実証的な評価で理論結果を補完する。
論文 参考訳(メタデータ) (2021-02-02T14:30:41Z) - Instance-Based Learning of Span Representations: A Case Study through
Named Entity Recognition [48.06319154279427]
本研究では,スパン間の類似性を学習するインスタンスベースの学習手法を提案する。
本手法では,性能を犠牲にすることなく高い解釈性を持つモデルを構築することができる。
論文 参考訳(メタデータ) (2020-04-29T23:32:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。