論文の概要: Entropy is all you need for Inter-Seed Cross-Play in Hanabi
- arxiv url: http://arxiv.org/abs/2511.22581v1
- Date: Thu, 27 Nov 2025 16:13:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.634933
- Title: Entropy is all you need for Inter-Seed Cross-Play in Hanabi
- Title(参考訳): エントロピーはハナビの種間クロスプレイに必要なもの
- Authors: Johannes Forkel, Jakob Foerster,
- Abstract要約: 独立系PPOの標準実装であるハナビでは、わずかに高いエントロピー係数 0.05 で、異なる種間のクロスプレイにおける新たな最先端を実現する。
しかし, エントロピー正則化が向上した標準方針勾配法では, 完全種間クロスプレイが達成できない, 単純なDec-POMDPが存在することを示す。
- 参考スコア(独自算出の注目度): 6.581076754075565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We find that in Hanabi, one of the most complex and popular benchmarks for zero-shot coordination and ad-hoc teamplay, a standard implementation of independent PPO with a slightly higher entropy coefficient 0.05 instead of the typically used 0.01, achieves a new state-of-the-art in cross-play between different seeds, beating by a significant margin all previous specialized algorithms, which were specifically designed for this setting. We provide an intuition for why sufficiently high entropy regularization ensures that different random seed produce joint policies which are mutually compatible. We also empirically find that a high $λ_{\text{GAE}}$ around 0.9, and using RNNs instead of just feed-forward layers in the actor-critic architecture, strongly increase inter-seed cross-play. While these results demonstrate the dramatic effect that hyperparameters can have not just on self-play scores but also on cross-play scores, we show that there are simple Dec-POMDPs though, in which standard policy gradient methods with increased entropy regularization are not able to achieve perfect inter-seed cross-play, thus demonstrating the continuing necessity for new algorithms for zero-shot coordination.
- Abstract(参考訳): ゼロショットコーディネートとアドホックなチームプレイのための最も複雑で一般的なベンチマークであるハナビでは、一般的に使用される0.01の代わりにわずかに高いエントロピー係数0.05を持つ独立系PPOの標準実装であるハナビが、異なるシード間のクロスプレイにおける新たな最先端性を達成し、この設定のために特別に設計されたアルゴリズムのかなりのマージンに打ち勝つことが判明した。
我々は,なぜ十分に高いエントロピー正則化が,異なるランダムシードが相互に互換性のあるジョイントポリシーを生成するのか,という直感を与える。
また、高い$λ_{\text{GAE}}$ 0.9前後で、アクター-クリティカルアーキテクチャのフィードフォワード層の代わりにRNNを使用することで、シード間のクロスプレイが大幅に増加することを実証的に見出した。
これらの結果から,ハイパーパラメータが自己演奏スコアだけでなく,クロスプレイスコアにも有効であることを示す一方で,エントロピー正則化を向上した標準方針勾配法では,ゼロショットコーディネートのための新しいアルゴリズムの必要性が継続することを示す,単純なDec-POMDPが存在することがわかった。
関連論文リスト
- Generalization error of min-norm interpolators in transfer learning [2.7309692684728617]
最小ノルム補間器は、現代の機械学習アルゴリズムの暗黙の正規化限界として自然に現れる。
多くのアプリケーションでは、トレーニング中に限られた量のテストデータが利用できるが、この設定におけるmin-normの特性は十分に理解されていない。
我々はこれらの特徴を達成するために、新しい異方性局所法を確立した。
論文 参考訳(メタデータ) (2024-06-20T02:23:28Z) - Teach me how to Interpolate a Myriad of Embeddings [18.711509039868655]
Mixupはデータベースの拡張を指し、元々は経験的リスク最小化を超える方法として動機付けられていた。
長さ$m$の任意の数値$n$を補間するMultiMixを紹介します。
コントリビューションは4つのベンチマーク上での最先端の混合手法よりも大幅に改善される。
論文 参考訳(メタデータ) (2022-06-29T19:16:48Z) - Low-rank Optimal Transport: Approximation, Statistics and Debiasing [51.50788603386766]
フロゼットボン2021ローランで提唱された低ランク最適輸送(LOT)アプローチ
LOTは興味のある性質と比較した場合、エントロピー正則化の正当な候補と見なされる。
本稿では,これらの領域のそれぞれを対象とし,計算OTにおける低ランクアプローチの影響を補強する。
論文 参考訳(メタデータ) (2022-05-24T20:51:37Z) - Pipelined correlated minimum weight perfect matching of the surface code [56.01788646782563]
最小ウェイト完全マッチングを用いて表面コードを復号するパイプライン手法について述べる。
独立な非通信可能な並列化処理段階は、潜在的な相関に従ってグラフを再重み付けする。
後続の一般的なステージがマッチングを終了します。
完全にフォールトトレラントなトーリック, 回転しない, 回転する曲面符号に対して, 新たなアルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2022-05-19T19:58:02Z) - An Online Learning Approach to Interpolation and Extrapolation in Domain
Generalization [53.592597682854944]
リスクを最小化するプレイヤーと新しいテストを示す敵の間のオンラインゲームとしてサブグループの一般化を再放送する。
両課題に対してERMは極小最適であることを示す。
論文 参考訳(メタデータ) (2021-02-25T19:06:48Z) - Explicit Regularization of Stochastic Gradient Methods through Duality [9.131027490864938]
ランダム化された双対座標の上昇に基づくランダム化されたDykstraスタイルのアルゴリズムを提案する。
座標降下を高速化するために、補間系における既存の勾配法よりも収束特性がよい新しいアルゴリズムを得る。
論文 参考訳(メタデータ) (2020-03-30T20:44:56Z) - Patch-level Neighborhood Interpolation: A General and Effective
Graph-based Regularization Strategy [77.34280933613226]
我々は、ネットワークの計算において非局所的な表現を行うtextbfPatch-level Neighborhood Interpolation(Pani)と呼ばれる一般的な正規化器を提案する。
提案手法は,異なる層にパッチレベルグラフを明示的に構築し,その近傍のパッチ特徴を線形に補間し,汎用的で効果的な正規化戦略として機能する。
論文 参考訳(メタデータ) (2019-11-21T06:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。