論文の概要: Derived metrics for the game of Go -- intrinsic network strength
assessment and cheat-detection
- arxiv url: http://arxiv.org/abs/2009.01606v3
- Date: Fri, 13 Nov 2020 12:11:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 07:33:33.078980
- Title: Derived metrics for the game of Go -- intrinsic network strength
assessment and cheat-detection
- Title(参考訳): Goのゲームにおける派生メトリクス--本質的なネットワーク強度評価と不正検出
- Authors: Attila Egri-Nagy and Antti T\"orm\"anen
- Abstract要約: 第二世代のエンジンのイノベーションが、新しいメトリクスを定義するためにどのように使用できるか、という2つの方法を説明します。
まず,探索成分が生のニューラルネットワークポリシ出力に加え,どの程度の情報に寄与するかを検討する。
第2に、スコア推定の差による移動の効果を定義する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread availability of superhuman AI engines is changing how we play
the ancient game of Go. The open-source software packages developed after the
AlphaGo series shifted focus from producing strong playing entities to
providing tools for analyzing games. Here we describe two ways of how the
innovations of the second generation engines (e.g.~score estimates, variable
komi) can be used for defining new metrics that help deepen our understanding
of the game. First, we study how much information the search component
contributes in addition to the raw neural network policy output. This gives an
intrinsic strength measurement for the neural network. Second, we define the
effect of a move by the difference in score estimates. This gives a
fine-grained, move-by-move performance evaluation of a player. We use this in
combating the new challenge of detecting online cheating.
- Abstract(参考訳): 超人的AIエンジンの普及は、私たちが古来の囲碁の遊び方を変えつつある。
AlphaGoシリーズ後に開発されたオープンソースソフトウェアパッケージは、強力なプレイエンティティの開発から、ゲーム分析ツールの提供へと焦点を移した。
ここでは,第2世代エンジンのイノベーション(例えば,スコア推定,可変コミ)を,ゲームに対する理解を深める上で有効な,新たなメトリクスを定義するための2つの方法を説明する。
まず,探索成分が生のニューラルネットワークポリシ出力に加え,どの程度の情報に寄与するかを検討する。
これにより、ニューラルネットワークの固有の強度測定が可能になる。
第2に,得点推定の差による移動の影響を定義する。
これにより、プレーヤのパフォーマンス評価を微妙に行うことができる。
オンライン不正を検知する新しい課題と戦うために、私たちはこれを使用します。
関連論文リスト
- Evolving Virtual World with Delta-Engine [60.488864128937955]
この仮想世界を駆動する特別なエンジンであるtextemphDelta-Engineを提案する。
デルタエンジンの重要な特徴は、世界中の未知の要素へのスケーラビリティである。
論文 参考訳(メタデータ) (2024-08-11T18:32:29Z) - Explaining How a Neural Network Play the Go Game and Let People Learn [26.192580802652742]
AIモデルは、Goのゲームで人間のプレイヤーを追い越した。
AIモデルは、人間のプレイヤーを超えて、Goゲームに関する新しい知識をエンコードしたと広く信じられている。
論文 参考訳(メタデータ) (2023-10-15T13:57:50Z) - Mechanic Maker 2.0: Reinforcement Learning for Evaluating Generated
Rules [5.9135869246353305]
ルール生成のための人間遊びの近似器として強化学習の適用について検討する。
従来のAGD環境であるMechanic Maker in Unityを,新たなオープンソースルール生成フレームワークとして再現する。
論文 参考訳(メタデータ) (2023-09-18T04:15:09Z) - Scaling Laws for Imitation Learning in Single-Agent Games [29.941613597833133]
我々は,モデルとデータサイズを慎重にスケールアップすることで,シングルエージェントゲームにおける模倣学習環境に類似した改善がもたらされるかどうかを検討する。
われわれはまずAtariのさまざまなゲームについて実験を行い、その後NetHackの非常に挑戦的なゲームに焦点を当てた。
IL損失と平均戻り値は計算予算とスムーズに一致し,相関関係が強く,計算最適ILエージェントの訓練には電力法則が適用されることがわかった。
論文 参考訳(メタデータ) (2023-07-18T16:43:03Z) - NetHack is Hard to Hack [37.24009814390211]
NeurIPS 2021 NetHack Challengeでは、シンボリックエージェントは中央値のゲームスコアにおいて、ニューラルネットワークのアプローチを4倍以上に上回りました。
我々はNetHackのニューラルポリシー学習について広範な研究を行っている。
従来の完全なニューラルポリシーを127%のオフライン設定、25%のオンライン設定を中央値のゲームスコアで上回る最先端のニューラルエージェントを作成しました。
論文 参考訳(メタデータ) (2023-05-30T17:30:17Z) - Targeted Search Control in AlphaZero for Effective Policy Improvement [93.30151539224144]
我々はAlphaZeroの新しい検索制御戦略であるGo-Exploitを紹介する。
Go-Exploitは、関心のある状態のアーカイブからセルフプレイトラジェクトリの開始状態をサンプリングする。
Go-Exploitは、標準のAlphaZeroよりも優れたサンプル効率で学習する。
論文 参考訳(メタデータ) (2023-02-23T22:50:24Z) - Are AlphaZero-like Agents Robust to Adversarial Perturbations? [73.13944217915089]
AlphaZero(AZ)は、ニューラルネットワークベースのGo AIが人間のパフォーマンスを大きく上回ることを示した。
私たちは、Go AIが驚くほど間違った行動を起こさせる可能性のある、敵対的な状態が存在するかどうか尋ねる。
我々は、Go AIに対する最初の敵攻撃を開発し、探索空間を戦略的に減らし、効率よく敵の状態を探索する。
論文 参考訳(メタデータ) (2022-11-07T18:43:25Z) - The cost of passing -- using deep learning AIs to expand our
understanding of the ancient game of Go [0.0]
そこで我々は,文脈に敏感な動作評価を行うための数値ツールを開発した。
石の現在の構成と同一基板位置における仮説パス後のスコア値の差である通過コストによる移動の緊急度を測定した。
論文 参考訳(メタデータ) (2022-08-24T05:28:56Z) - An Empirical Study on the Generalization Power of Neural Representations
Learned via Visual Guessing Games [79.23847247132345]
本研究は,視覚質問応答(VQA)のような新しいNLP下流タスクにおいて,後から実行を依頼されたとき,人工エージェントが推測ゲームでどの程度の利益を得ることができるかを検討する。
提案手法は,1) エージェントがうまく推理ゲームを模倣することを学習する教師あり学習シナリオ,2) エージェントが単独でプレイする新しい方法,すなわち,反復経験学習(SPIEL)によるセルフプレイ(Self-play)を提案する。
論文 参考訳(メタデータ) (2021-01-31T10:30:48Z) - Teach me to play, gamer! Imitative learning in computer games via
linguistic description of complex phenomena and decision tree [55.41644538483948]
本稿では,複雑な現象の言語記述に基づく模倣による新しい機械学習モデルを提案する。
この手法は,ゲーム開発における知的エージェントの動作を設計し,実装するための優れた代替手段となる。
論文 参考訳(メタデータ) (2021-01-06T21:14:10Z) - Deep Policy Networks for NPC Behaviors that Adapt to Changing Design
Parameters in Roguelike Games [137.86426963572214]
例えばRoguelikesのようなターンベースの戦略ゲームは、Deep Reinforcement Learning(DRL)にユニークな課題を提示する。
複雑なカテゴリ状態空間をより適切に処理し、設計決定によって強制的に再訓練する必要性を緩和する2つのネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-07T08:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。