論文の概要: Towards robust and domain agnostic reinforcement learning competitions
- arxiv url: http://arxiv.org/abs/2106.03748v1
- Date: Mon, 7 Jun 2021 16:15:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:45:43.042094
- Title: Towards robust and domain agnostic reinforcement learning competitions
- Title(参考訳): 堅牢かつドメインに依存しない強化学習コンペティションに向けて
- Authors: William Hebgen Guss, Stephanie Milani, Nicholay Topin, Brandon
Houghton, Sharada Mohanty, Andrew Melnik, Augustin Harter, Benoit Buschmaas,
Bjarne Jaster, Christoph Berganski, Dennis Heitkamp, Marko Henning, Helge
Ritter, Chengjie Wu, Xiaotian Hao, Yiming Lu, Hangyu Mao, Yihuan Mao, Chao
Wang, Michal Opanowicz, Anssi Kanervisto, Yanick Schraner, Christian
Scheller, Xiren Zhou, Lu Liu, Daichi Nishio, Toi Tsuneda, Karolis
Ramanauskas, Gabija Juceviciute
- Abstract要約: 強化学習コンペティションは標準研究ベンチマークの基礎を形成している。
それにもかかわらず、ほとんどの課題は、同じ根本的な問題に悩まされている。
本稿では,これらの障壁を克服するアルゴリズムの開発を促進する,競争設計の新しい枠組みを提案する。
- 参考スコア(独自算出の注目度): 12.731614722371376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning competitions have formed the basis for standard
research benchmarks, galvanized advances in the state-of-the-art, and shaped
the direction of the field. Despite this, a majority of challenges suffer from
the same fundamental problems: participant solutions to the posed challenge are
usually domain-specific, biased to maximally exploit compute resources, and not
guaranteed to be reproducible. In this paper, we present a new framework of
competition design that promotes the development of algorithms that overcome
these barriers. We propose four central mechanisms for achieving this end:
submission retraining, domain randomization, desemantization through domain
obfuscation, and the limitation of competition compute and environment-sample
budget. To demonstrate the efficacy of this design, we proposed, organized, and
ran the MineRL 2020 Competition on Sample-Efficient Reinforcement Learning. In
this work, we describe the organizational outcomes of the competition and show
that the resulting participant submissions are reproducible, non-specific to
the competition environment, and sample/resource efficient, despite the
difficult competition task.
- Abstract(参考訳): 強化学習コンペティションは、標準的な研究ベンチマークの基礎を形成し、最先端の進歩を加速させ、フィールドの方向性を形作った。
提案された課題に対する参加者ソリューションは通常、ドメイン固有であり、最大で計算リソースを最大限活用するために偏りがあり、再現可能であることが保証されていない。
本稿では,これらの障壁を克服するアルゴリズムの開発を促進する競争設計の新しい枠組みを提案する。
この目的を達成するための4つの中心的なメカニズムを提案する: 提出のリトレーニング、ドメインのランダム化、ドメインの難読化による先延ばし、競争計算と環境サンプル予算の制限。
本設計の有効性を示すため,MineRL 2020 Competition on Sample-Efficient Reinforcement Learningを提案した。
本研究は,競争の組織的成果を概説し,その成果が再現可能であり,競争環境に特化せず,かつ,競争の困難な課題にもかかわらず,サンプル/資源効率がよいことを示す。
関連論文リスト
- Are we making progress in unlearning? Findings from the first NeurIPS unlearning competition [70.60872754129832]
アンラーニングに関する最初のNeurIPSコンペティションは、新しいアルゴリズムの開発を刺激しようとした。
世界中から約1200チームが参加した。
トップソリューションを分析し、アンラーニングのベンチマークに関する議論を掘り下げます。
論文 参考訳(メタデータ) (2024-06-13T12:58:00Z) - Distribution-Free Fair Federated Learning with Small Samples [54.63321245634712]
FedFaiREEは、分散化された環境で分散のないフェアラーニングのために小さなサンプルで開発された後処理アルゴリズムである。
公正性と精度の両面において厳密な理論的保証を提供し,実験結果により,提案手法の堅牢な実証検証を行う。
論文 参考訳(メタデータ) (2024-02-25T17:37:53Z) - CompeteSMoE -- Effective Training of Sparse Mixture of Experts via
Competition [52.2034494666179]
スパース・ミックス・オブ・エキスパート(SMoE)は、ネットワークの深さや幅を増大させる平均を超えた、モデルの複雑さをスケールアップする魅力的なソリューションを提供する。
本稿では,この表現崩壊の根本的な課題に対処する競合機構を提案する。
入力を最も高い神経応答を持つ専門家にのみルーティングすることにより、コンペティションが最適推定器と同じ収束率を持つことを示す。
論文 参考訳(メタデータ) (2024-02-04T15:17:09Z) - Benchmarking Robustness and Generalization in Multi-Agent Systems: A
Case Study on Neural MMO [50.58083807719749]
IJCAI 2022で開催されている第2回Neural MMOチャレンジの結果を報告する。
この競合はマルチエージェントシステムの堅牢性と一般化をターゲットにしている。
環境ラッパー、ベースライン、可視化ツール、そしてさらなる研究のための選択されたポリシーを含むベンチマークをオープンソースにします。
論文 参考訳(メタデータ) (2023-08-30T07:16:11Z) - A portfolio-based analysis method for competition results [0.8680676599607126]
本稿では,コンペティションに参加する問題解決者のパフォーマンスを補完するポートフォリオベースの分析手法について述べる。
本手法はMiniZinc Challengesの結果に示され,ポートフォリオの観点から得られた新たな知見が提示される。
論文 参考訳(メタデータ) (2022-05-30T20:20:45Z) - Multi-Stage Decentralized Matching Markets: Uncertain Preferences and
Strategic Behaviors [91.3755431537592]
本稿では、現実世界のマッチング市場で最適な戦略を学ぶためのフレームワークを開発する。
我々は,不確実性レベルが特徴の福祉対フェアネストレードオフが存在することを示す。
シングルステージマッチングと比較して、マルチステージマッチングで参加者がより良くなることを証明します。
論文 参考訳(メタデータ) (2021-02-13T19:25:52Z) - The MineRL 2020 Competition on Sample Efficient Reinforcement Learning
using Human Priors [62.9301667732188]
我々は,MineRLコンペティションの第2イテレーションを提案する。
競争の主な目標は、人間のデモンストレーションを効率的に活用できるアルゴリズムの開発を促進することです。
コンペティションは、データセットと環境のペアバージョンが複数提供される2ラウンドで構成されている。
各ラウンドの終わりに、競合他社はコンテナ化された学習アルゴリズムをaicrowdプラットフォームに提出する。
論文 参考訳(メタデータ) (2021-01-26T20:32:30Z) - Retrospective Analysis of the 2019 MineRL Competition on Sample
Efficient Reinforcement Learning [27.440055101691115]
我々は,ニューラル情報処理システム(NeurIPS)に関する第3回大会で,人間の事前知識を用いたサンプル効率的な強化学習に関するMineRLコンペティションを開催した。
この競争の第一の目的は、複雑で階層的でスパースな環境を解決するのに必要なサンプルの数を減らし、強化学習と共に人間のデモンストレーションを使用するアルゴリズムの開発を促進することであった。
論文 参考訳(メタデータ) (2020-03-10T21:39:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。