論文の概要: Alpha-Mini: Minichess Agent with Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2112.13666v1
- Date: Wed, 22 Dec 2021 19:16:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-02 09:33:47.889561
- Title: Alpha-Mini: Minichess Agent with Deep Reinforcement Learning
- Title(参考訳): Alpha-Mini: 深層強化学習エージェント
- Authors: Michael Sun and Robert Tan
- Abstract要約: 我々はエージェントにガードナーミニチェスのゲームに出場するように訓練する。
最終エージェントは、ランダムエージェントに対してほぼ(.97)完全勝利率を達成する。
また,自己再生によって得られる位置の集合を用いて,ネットワークの事前学習の効果についても検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We train an agent to compete in the game of Gardner minichess, a downsized
variation of chess played on a 5x5 board. We motivated and applied a SOTA
actor-critic method Proximal Policy Optimization with Generalized Advantage
Estimation. Our initial task centered around training the agent against a
random agent. Once we obtained reasonable performance, we then adopted a
version of iterative policy improvement adopted by AlphaGo to pit the agent
against increasingly stronger versions of itself, and evaluate the resulting
performance gain. The final agent achieves a near (.97) perfect win rate
against a random agent. We also explore the effects of pretraining the network
using a collection of positions obtained via self-play.
- Abstract(参考訳): ガードナー・ミニチェス(gardner minichess)は、5x5のボードでプレイされるチェスの小型版。
汎用的アドバンテージ推定を用いたソタ・アクタ-クリティック手法の近位政策最適化を動機付け,適用した。
最初の仕事は、エージェントをランダムなエージェントに対してトレーニングすることでした。
適切なパフォーマンスを得ると、AlphaGoが採用した反復ポリシーの改善版を採用して、エージェントをより強力なバージョンに落とし込み、その結果のパフォーマンス向上を評価します。
最終エージェントは、ランダムエージェントに対してほぼ(.97)完全勝利率を達成する。
また,自己再生によって得られる位置の集合を用いて,ネットワークの事前学習の効果についても検討する。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Population-based Evaluation in Repeated Rock-Paper-Scissors as a
Benchmark for Multiagent Reinforcement Learning [14.37986882249142]
簡単なゲームRock, Paper, Scissorsの繰り返しプレイに基づくマルチエージェント学習のためのベンチマークを提案する。
平均リターンとエクスプロイラビリティの両方に基づいて,エージェントの品質を測定するための指標について述べる。
論文 参考訳(メタデータ) (2023-03-02T15:06:52Z) - A State Augmentation based approach to Reinforcement Learning from Human
Preferences [20.13307800821161]
優先に基づく強化学習は、クエリされたトラジェクトリペアのバイナリフィードバックを利用することで、この問題を解決しようとする。
本稿では,エージェントの報酬モデルが堅牢である状態拡張手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T07:10:50Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - Supervised and Reinforcement Learning from Observations in
Reconnaissance Blind Chess [0.0]
本研究では,オリジナルのAlphaGoシステムにインスパイアされたトレーニングアプローチを適用し,リコネッサンス・ブラインドチェスの不完全な情報ゲームをプレイする。
ゲーム状態の完全な記述ではなく,観察のみを用いて,一般に利用可能なゲームレコードの教師エージェントを訓練する。
次に、政治強化学習アルゴリズムであるPhysmal Policy Optimizationを用いて、エージェントの自己プレイによりエージェントの性能を向上させる。
論文 参考訳(メタデータ) (2022-08-03T12:50:19Z) - Reinforcement Learning Agents in Colonel Blotto [0.0]
エージェントベースモデルの特定の例に着目し、強化学習(RL)を用いてエージェントの環境における行動の訓練を行う。
我々はRLエージェントが1つの対戦相手を手動で打ち負かし、対戦相手の数が増えると依然として非常によく機能することを示した。
また、RLエージェントを解析し、最も高いQ値と低いQ値を与えるアクションを見て、どのような戦略が到達したかを調べる。
論文 参考訳(メタデータ) (2022-04-04T16:18:01Z) - Provably Efficient Algorithms for Multi-Objective Competitive RL [54.22598924633369]
エージェントの報酬がベクトルとして表現される多目的強化学習(RL)について検討する。
エージェントが相手と競合する設定では、その平均戻りベクトルから目標セットまでの距離によってその性能を測定する。
統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。
論文 参考訳(メタデータ) (2021-02-05T14:26:00Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Approximate exploitability: Learning a best response in large games [31.066412349285994]
我々は,エージェントに対する最良の応答を学習するための,スケーラブルな検索ベース深層強化学習アルゴリズムISMCTS-BRを紹介する。
本手法は,複数のエージェントに対する2プレイヤーゼロサムゲームにおいて実演する。
論文 参考訳(メタデータ) (2020-04-20T23:36:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。