論文の概要: On Reinforcement Learning for the Game of 2048
- arxiv url: http://arxiv.org/abs/2212.11087v1
- Date: Wed, 21 Dec 2022 15:33:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 14:00:04.360810
- Title: On Reinforcement Learning for the Game of 2048
- Title(参考訳): 2048年ゲームにおける強化学習について
- Authors: Hung Guei
- Abstract要約: この論文は2048年の強化学習とコンピュータゲームアルゴリズムに関する包括的な研究を行っている。
2048 の最先端プログラムが開発され,すべての学習プログラムの中で最も高い性能を達成している。
提案したコース設計では,2048種類のゲームを初心者が強化学習やコンピュータゲームアルゴリズムを学ぶための教材として使用する。
- 参考スコア(独自算出の注目度): 0.8223798883838329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 2048 is a single-player stochastic puzzle game. This intriguing and addictive
game has been popular worldwide and has attracted researchers to develop
game-playing programs. Due to its simplicity and complexity, 2048 has become an
interesting and challenging platform for evaluating the effectiveness of
machine learning methods. This dissertation conducts comprehensive research on
reinforcement learning and computer game algorithms for 2048. First, this
dissertation proposes optimistic temporal difference learning, which
significantly improves the quality of learning by employing optimistic
initialization to encourage exploration for 2048. Furthermore, based on this
approach, a state-of-the-art program for 2048 is developed, which achieves the
highest performance among all learning-based programs, namely an average score
of 625377 points and a rate of 72% for reaching 32768-tiles. Second, this
dissertation investigates several techniques related to 2048, including the
n-tuple network ensemble learning, Monte Carlo tree search, and deep
reinforcement learning. These techniques are promising for further improving
the performance of the current state-of-the-art program. Finally, this
dissertation discusses pedagogical applications related to 2048 by proposing
course designs and summarizing the teaching experience. The proposed course
designs use 2048-like games as materials for beginners to learn reinforcement
learning and computer game algorithms. The courses have been successfully
applied to graduate-level students and received well by student feedback.
- Abstract(参考訳): 2048はシングルプレイヤーの確率パズルゲームである。
この興味深く中毒的なゲームは世界中で人気があり、ゲームプレイングプログラムを開発する研究者を惹きつけている。
その単純さと複雑さのため、2048は機械学習手法の有効性を評価するための興味深く挑戦的なプラットフォームになっている。
この論文は2048年の強化学習とコンピュータゲームアルゴリズムに関する包括的な研究を行っている。
まず、この論文は2048年の探索を促進するために楽観的初期化を用いて学習の質を大幅に向上させる楽観的時間差学習を提案する。
さらに,この手法に基づき,全学習系プログラム,すなわち625377点の平均スコアと32768タイル到達率72%において,最高性能を達成する2048年の最新プログラムを開発した。
第2に、この論文は、n-tuple ネットワークアンサンブル学習、モンテカルロ木探索、深層強化学習など、2048年に関連するいくつかの技術を調査している。
これらの技術は、現在の最先端プログラムの性能をさらに向上させることを約束している。
最後に本論文では,授業設計の提案と授業経験の要約を通じて,2048年に関する教育的応用について論じる。
提案したコース設計では,2048種類のゲームを初心者が強化学習やコンピュータゲームアルゴリズムを学ぶための教材として使用する。
このコースは大学院生にうまく適用され、学生からのフィードバックで受講している。
関連論文リスト
- Towards Open-World Mobile Manipulation in Homes: Lessons from the Neurips 2023 HomeRobot Open Vocabulary Mobile Manipulation Challenge [93.4434417387526]
ロボット工学における鍵となるベンチマークタスクとして,Open Vocabulary Mobile Manipulationを提案する。
我々は,この課題に対する解決策を評価するために,シミュレーションと実世界のコンポーネントを兼ね備えたNeurIPS 2023コンペティションを組織した。
シミュレーションと実環境設定の両方で使用される結果と方法論を詳述する。
論文 参考訳(メタデータ) (2024-07-09T15:15:01Z) - Technical Challenges of Deploying Reinforcement Learning Agents for Game
Testing in AAA Games [58.720142291102135]
本稿では,既存の自動ゲームテストソリューションに,スクリプト型ボットをベースとして,実験的な強化学習システムを追加する取り組みについて述べる。
ゲーム制作において強化学習を活用するためのユースケースを示し、ゲームのために同じ旅をしたいと思う人なら誰でも遭遇する最大の時間をカバーしています。
我々は、機械学習、特にゲーム生産において効果的なツールである強化学習を作るのに価値があり、必要であると考えるいくつかの研究指針を提案する。
論文 参考訳(メタデータ) (2023-07-19T18:19:23Z) - Neural Architecture Search: Insights from 1000 Papers [50.27255667347091]
ニューラルアーキテクチャサーチの組織的で包括的なガイドを提供する。
検索空間、アルゴリズム、スピードアップのテクニックを分類する。
ベンチマークやベストプラクティス,その他の調査,オープンソースライブラリなどのリソースについて論じる。
論文 参考訳(メタデータ) (2023-01-20T18:47:24Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z) - Deep Apprenticeship Learning for Playing Games [0.0]
複雑な多次元タスクのエキスパート行動に基づく学習モデルの設計の可能性について検討する。
本稿では,強化学習における教師あり学習技術に関する従来の研究をもとに,新しい見習い学習手法を提案する。
本手法は,アタリゲームからの映像フレームに適用し,人工エージェントによるゲームプレイの指導を行う。
論文 参考訳(メタデータ) (2022-05-16T19:52:45Z) - Optimistic Temporal Difference Learning for 2048 [4.404507236193031]
多段階TD(MS-TD)学習や時間コヒーレンス(TC)学習など,時間差(TD)学習とその変種を2048年に応用した。
我々は,2048年の探索を促進するために,楽観的な初期化(OI)を採用し,学習の質が著しく向上していることを実証的に示す。
実験の結果,OIを用いたTDとTCの学習により,性能が大幅に向上した。
論文 参考訳(メタデータ) (2021-11-22T10:09:36Z) - Playing 2048 With Reinforcement Learning [0.0]
本稿では,2048年に勝利するための強化学習手法について検討する。
我々のアプローチには、深いQ-ラーニングとビームサーチがあり、ビームサーチは2048 28.5時間に達する。
論文 参考訳(メタデータ) (2021-10-20T05:02:31Z) - Mastering Rate based Curriculum Learning [78.45222238426246]
学習の進行という概念には、学習者のサンプル効率の低下につながるいくつかの欠点があると主張する。
本稿では,習得率の概念に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-14T16:34:01Z) - Multi-Armed Bandits for Minesweeper: Profiting from
Exploration-Exploitation Synergy [0.0]
人気のコンピュータパズルであるマインズウィーパーのゲームでは、人間のプレイヤーは幸運と戦略の両方を混ぜて成功させる必要がある。
我々は,このゲームで提示される問題に対処するために,強化学習に基づく新しい方法論を開発する。
論文 参考訳(メタデータ) (2020-07-25T01:44:50Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Education Games To Learn Basic Algorithm With Near Isometric Projection
Method [0.0]
本研究は, シークエンシング, オーバーロード, 手順, 再帰ループ, 条件に焦点をあてる。
近等距離射影法で提案された教育ゲームは83.87%の合意に達した。
論文 参考訳(メタデータ) (2020-05-27T08:10:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。