論文の概要: A Survey on Self-play Methods in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2408.01072v1
- Date: Fri, 2 Aug 2024 07:47:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 14:07:18.167942
- Title: A Survey on Self-play Methods in Reinforcement Learning
- Title(参考訳): 強化学習における自己表現法の検討
- Authors: Ruize Zhang, Zelai Xu, Chengdong Ma, Chao Yu, Wei-Wei Tu, Shiyu Huang, Deheng Ye, Wenbo Ding, Yaodong Yang, Yu Wang,
- Abstract要約: エージェントとコピーや過去のバージョンとの相互作用を特徴とするセルフプレイは、近年、強化学習において注目されている。
本稿では,マルチエージェント強化学習フレームワークやゲーム理論の基本概念を含む,自己プレイの予備的概念を明らかにする。
統合されたフレームワークを提供し、このフレームワーク内で既存のセルフプレイアルゴリズムを分類する。
- 参考スコア(独自算出の注目度): 30.17222344626277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-play, characterized by agents' interactions with copies or past versions of itself, has recently gained prominence in reinforcement learning. This paper first clarifies the preliminaries of self-play, including the multi-agent reinforcement learning framework and basic game theory concepts. Then it provides a unified framework and classifies existing self-play algorithms within this framework. Moreover, the paper bridges the gap between the algorithms and their practical implications by illustrating the role of self-play in different scenarios. Finally, the survey highlights open challenges and future research directions in self-play. This paper is an essential guide map for understanding the multifaceted landscape of self-play in RL.
- Abstract(参考訳): エージェントとコピーや過去のバージョンとの相互作用を特徴とするセルフプレイは、近年、強化学習において注目されている。
本稿ではまず,マルチエージェント強化学習フレームワークやゲーム理論の基本概念を含む,セルフプレイの予備的概念を明らかにする。
そして、統合されたフレームワークを提供し、このフレームワーク内の既存のセルフプレイアルゴリズムを分類する。
さらに,本論文は,異なるシナリオにおける自己表現の役割を具現化することによって,アルゴリズムと実践的意味のギャップを埋めるものである。
最後に、この調査はオープンな課題と、セルフプレイにおける今後の研究方向性を強調している。
本稿は,RLにおける自己表現の多面的景観を理解するためのガイドマップである。
関連論文リスト
- Decorrelation-based Self-Supervised Visual Representation Learning for Writer Identification [10.55096104577668]
本稿では,自己教師型学習のデコリレーションに基づくパラダイムを探求し,著者識別のための不整合脳卒中の特徴の学習に適用する。
提案手法は,著者識別ベンチマークにおいて,現代の自己教師型学習フレームワークよりも優れていることを示す。
我々の知る限り、本研究は、著者検証タスクの学習表現に自己教師付き学習を適用した最初のものである。
論文 参考訳(メタデータ) (2024-10-02T11:43:58Z) - Semi-supervised learning made simple with self-supervised clustering [65.98152950607707]
自己教師付き学習モデルは、人間のアノテーションを必要とせずにリッチな視覚表現を学習することが示されている。
本稿では,クラスタリングに基づく自己教師付き手法を半教師付き学習者へと変換する,概念的に単純だが経験的に強力な手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T01:09:18Z) - Self-Supervised Multi-Object Tracking For Autonomous Driving From
Consistency Across Timescales [53.55369862746357]
自己管理型マルチオブジェクトトラッカーは、生のドメイン固有データから学習できるという大きな可能性を秘めている。
しかし、その再識別精度は、監督対象よりも低い。
本稿では,複数の連続フレームから再同定特徴を自己教師付きで学習できる学習目標を提案する。
論文 参考訳(メタデータ) (2023-04-25T20:47:29Z) - SS-VAERR: Self-Supervised Apparent Emotional Reaction Recognition from
Video [61.21388780334379]
この研究は、自己監督的な方法で行われるビデオのみの入力からの明らかな感情的反応の認識に焦点を当てる。
ネットワークは、まず異なる自己教師付きプレテキストタスクで事前訓練され、その後、下流のターゲットタスクで微調整される。
論文 参考訳(メタデータ) (2022-10-20T15:21:51Z) - Leveraging Explanations in Interactive Machine Learning: An Overview [10.284830265068793]
説明はAIと機械学習(ML)コミュニティへの関心が高まっている。
本稿では,対話的能力と説明が組み合わさった研究の概要について述べる。
論文 参考訳(メタデータ) (2022-07-29T07:46:11Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - A Survey on Contrastive Self-supervised Learning [0.0]
自己教師付き学習は、大規模なデータセットのアノテートコストを回避する能力によって人気を集めている。
コントラスト学習は近年,コンピュータビジョン,自然言語処理(NLP)などの分野において,自己指導型学習手法の主流となっている。
本稿では, コントラスト的アプローチに従う自己教師型手法について, 広範囲にわたるレビューを行う。
論文 参考訳(メタデータ) (2020-10-31T21:05:04Z) - Deep Reinforcement Learning with Stacked Hierarchical Attention for
Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。
エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。
提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-10-22T12:40:22Z) - Self-supervised Learning from a Multi-view Perspective [121.63655399591681]
自己教師型表現はタスク関連情報を抽出し,タスク関連情報を破棄することができることを示す。
我々の理論的枠組みは、自己教師型学習目標設計のより広い空間への道を開くものである。
論文 参考訳(メタデータ) (2020-06-10T00:21:35Z) - A Comparison of Self-Play Algorithms Under a Generalized Framework [4.339542790745868]
マルチエージェント強化学習(英語版)でしばしば言及されるセルフプレイの概念は、形式的なモデルでは基礎付けられていない。
我々は,自己表現の意味をカプセル化した,明確に定義された仮定を持つ形式化された枠組みを提案する。
得られた自己再生手法のサブセットが、有名なPPOアルゴリズムと組み合わせることで、この解をいかにうまく近似するかを測定する。
論文 参考訳(メタデータ) (2020-06-08T11:02:37Z) - Modeling Document Interactions for Learning to Rank with Regularized
Self-Attention [22.140197412459393]
自己注意に基づくニューラルネットワークと相互作用する文書のモデリングについて検討する。
文書間の相互作用をモデル化するために設計された,単純かつ効果的な正規化用語を提案する。
提案した正規化項による自己注意ネットワークのトレーニングは,既存の学習方法よりも格付けに優れることを示す。
論文 参考訳(メタデータ) (2020-05-08T09:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。