論文の概要: Unbiased Self-Play
- arxiv url: http://arxiv.org/abs/2106.03007v1
- Date: Sun, 6 Jun 2021 02:16:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:24:13.616285
- Title: Unbiased Self-Play
- Title(参考訳): バイアスのないセルフプレイ
- Authors: Shohei Ohsawa
- Abstract要約: 本研究では,創発的信念状態表現のための一般最適化フレームワークを提案する。
我々は,多エージェント強化学習とコミュニケーションの共通構成を用いて,各エージェントの知識を活用して,環境の探索範囲を改善する。
最大20のエージェントと市販のRNNによるStarCraft探索タスクを含む数値解析は、最先端のパフォーマンスを実証している。
- 参考スコア(独自算出の注目度): 2.2463154358632473
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present a general optimization framework for emergent belief-state
representation without any supervision. We employed the common configuration of
multiagent reinforcement learning and communication to improve exploration
coverage over an environment by leveraging the knowledge of each agent. In this
paper, we obtained that recurrent neural nets (RNNs) with shared weights are
highly biased in partially observable environments because of their
noncooperativity. To address this, we designated an unbiased version of
self-play via mechanism design, also known as reverse game theory, to clarify
unbiased knowledge at the Bayesian Nash equilibrium. The key idea is to add
imaginary rewards using the peer prediction mechanism, i.e., a mechanism for
mutually criticizing information in a decentralized environment. Numerical
analyses, including StarCraft exploration tasks with up to 20 agents and
off-the-shelf RNNs, demonstrate the state-of-the-art performance.
- Abstract(参考訳): 我々は,創発的信念状態表現のための汎用最適化フレームワークを提案する。
マルチエージェント強化学習とコミュニケーションの共通構成を用いて,各エージェントの知識を活用して,環境の探索範囲を改善する。
本稿では,共有重み付きリカレントニューラルネット(RNN)が,その非協調性のため,部分的に観測可能な環境において非常に偏りが強いことを示す。
そこで我々は,ベイズ・ナッシュ均衡における偏りのない知識を明らかにするために,リバースゲーム理論(reverse game theory)としても知られる機構設計による自己遊びの偏りのないバージョンを選定した。
鍵となるアイデアは、ピア予測機構、すなわち分散環境で情報を相互に批判するメカニズムを使って、想像上の報酬を追加することである。
最大20のエージェントと市販のRNNによるStarCraft探索タスクを含む数値解析は、最先端のパフォーマンスを実証している。
関連論文リスト
- On Multi-Agent Inverse Reinforcement Learning [8.284137254112848]
Inverse Reinforcement Learning (IRL) フレームワークを多エージェント設定に拡張し、Nash Equilibrium (NE) ポリシーに従うエージェントを観察する。
本稿では,現実的な報酬セットを明示的に評価し,移行ダイナミクスや専門家の行動が報酬にどのように影響するかを推定する。
論文 参考訳(メタデータ) (2024-11-22T16:31:36Z) - Disentangling Representations through Multi-task Learning [0.0]
分類タスクを最適に解決するエージェントにおいて,不整合表現の出現を保証する実験および理論的結果を提供する。
マルチタスク分類を訓練したRNNにおいて,これらの予測を実験的に検証した。
私たちは、トランスフォーマーが特に、そのユニークな世界理解能力を説明するような、無関係な表現に向いていることに気付きました。
論文 参考訳(メタデータ) (2024-07-15T21:32:58Z) - Problem-Solving in Language Model Networks [44.99833362998488]
この研究は、マルチエージェント論争の概念をより一般的なネットワークトポロジに拡張する。
質問応答の正確さ、影響、コンセンサス、および集団に対する偏見の影響を測定する。
論文 参考訳(メタデータ) (2024-06-18T07:59:14Z) - Networked Communication for Decentralised Agents in Mean-Field Games [59.01527054553122]
平均フィールドゲームフレームワークにネットワーク通信を導入する。
当社のアーキテクチャは、中央集権型と独立した学習ケースの双方で保証されていることを証明しています。
論文 参考訳(メタデータ) (2023-06-05T10:45:39Z) - Self-supervised debiasing using low rank regularization [59.84695042540525]
純粋な相関は、ディープニューラルネットワークの強いバイアスを引き起こし、一般化能力を損なう可能性がある。
ラベルのないサンプルと互換性のある自己監督型脱バイアスフレームワークを提案する。
注目すべきは,提案フレームワークが自己教師付き学習ベースラインの一般化性能を著しく向上させることである。
論文 参考訳(メタデータ) (2022-10-11T08:26:19Z) - Unsupervised Learning of Unbiased Visual Representations [10.871587311621974]
ディープニューラルネットワークは、データセットにバイアスが存在するときに堅牢な表現を学習できないことで知られている。
我々は3つのステップからなる完全に教師なしの脱バイアスフレームワークを提案する。
我々は、非バイアスモデルを得るために最先端の教師付き脱バイアス技術を採用している。
論文 参考訳(メタデータ) (2022-04-26T10:51:50Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z) - Learning from Failure: Training Debiased Classifier from Biased
Classifier [76.52804102765931]
ニューラルネットワークは、所望の知識よりも学習が簡単である場合にのみ、素早い相関に依存することを学習していることを示す。
本稿では,一対のニューラルネットワークを同時にトレーニングすることで,障害に基づくデバイアス化手法を提案する。
本手法は,合成データセットと実世界のデータセットの両方において,各種バイアスに対するネットワークのトレーニングを大幅に改善する。
論文 参考訳(メタデータ) (2020-07-06T07:20:29Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。