論文の概要: Bitboard version of Tetris AI
- arxiv url: http://arxiv.org/abs/2603.26765v1
- Date: Tue, 24 Mar 2026 02:35:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.58522
- Title: Bitboard version of Tetris AI
- Title(参考訳): Tetris AIのBitboardバージョン
- Authors: Xingguo Chen, Pingshou Xiong, Zhenyu Luo, Mengfei Hu, Xinwen Li, Yongzhou Lü, Guang Yang, Chao Li, Shangdong Yang,
- Abstract要約: 既存のテトリス実装は、シミュレーション速度の低下、準最適状態評価、非効率なトレーニングパラダイムに悩まされている。
本稿では,ビットボード最適化と改良されたRLアルゴリズムに基づく高性能テトリスAIフレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.23305813094404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The efficiency of game engines and policy optimization algorithms is crucial for training reinforcement learning (RL) agents in complex sequential decision-making tasks, such as Tetris. Existing Tetris implementations suffer from low simulation speeds, suboptimal state evaluation, and inefficient training paradigms, limiting their utility for large-scale RL research. To address these limitations, this paper proposes a high-performance Tetris AI framework based on bitboard optimization and improved RL algorithms. First, we redesign the Tetris game board and tetrominoes using bitboard representations, leveraging bitwise operations to accelerate core processes (e.g., collision detection, line clearing, and Dellacherie-Thiery Features extraction) and achieve a 53-fold speedup compared to OpenAI Gym-Tetris. Second, we introduce an afterstate-evaluating actor network that simplifies state value estimation by leveraging Tetris afterstate property, outperforming traditional action-value networks with fewer parameters. Third, we propose a buffer-optimized Proximal Policy Optimization (PPO) algorithm that balances sampling and update efficiency, achieving an average score of 3,829 on 10x10 grids within 3 minutes. Additionally, we develop a Python-Java interface compliant with the OpenAI Gym standard, enabling seamless integration with modern RL frameworks. Experimental results demonstrate that our framework enhances Tetris's utility as an RL benchmark by bridging low-level bitboard optimizations with high-level AI strategies, providing a sample-efficient and computationally lightweight solution for scalable sequential decision-making research.
- Abstract(参考訳): ゲームエンジンとポリシー最適化アルゴリズムの効率は、テトリスのような複雑な意思決定タスクにおける強化学習(RL)エージェントの訓練に不可欠である。
既存のテトリス実装は、シミュレーション速度の低下、準最適状態評価、非効率なトレーニングパラダイムに悩まされており、大規模なRL研究においてその有用性を制限している。
これらの制約に対処するために,ビットボード最適化と改良されたRLアルゴリズムに基づく高性能テトリスAIフレームワークを提案する。
まず,ビットボード表現を用いてテトリスゲームボードとテトロミノをリデザインし,コアプロセス(例えば,衝突検出,ラインクリア,Dellacherie-Thiery Features 抽出)を高速化し,OpenAI Gym-Tetrisと比較して53倍の高速化を実現した。
第2に,テトリス残状態特性を活用して状態値推定を簡略化し,パラメータの少ない従来の行動値ネットワークよりも優れた状態値推定を行う,残状態評価アクタネットワークを提案する。
第3に、サンプリングと更新効率のバランスをとるバッファ最適化プロキシポリシー最適化(PPO)アルゴリズムを提案し、平均スコアは10×10グリッドで3,829点を3分で達成した。
さらに,OpenAI Gym標準に準拠したPython-Javaインターフェースを開発し,最新のRLフレームワークとのシームレスな統合を実現する。
実験により,我々のフレームワークは,高レベルのAI戦略で低レベルビットボード最適化をブリッジすることで,RLベンチマークとしてのテトリスの有用性を高め,スケーラブルなシーケンシャルな意思決定研究のためのサンプル効率で計算的に軽量なソリューションを提供することを示した。
関連論文リスト
- Learning to Reason as Action Abstractions with Scalable Mid-Training RL [55.24192942739207]
効果的な中間訓練フェーズは、有用なアクションのコンパクトなセットを特定し、高速な選択を可能にする。
本稿では,スケーラブルなミッドトレーニングアルゴリズムであるReasoning as Action Abstractions (RA3)を提案する。
論文 参考訳(メタデータ) (2025-09-30T05:34:20Z) - AutoTriton: Automatic Triton Programming with Reinforcement Learning in LLMs [87.8306870967343]
我々は、強化学習(RL)を利用したトリトンプログラミングのための最初のモデルであるAutoTritonを紹介する。
AutoTritonは、高品質なデータ収集パイプラインを使用して、本質的なTritonプログラミング専門知識を備えた教師付き微調整(SFT)を実行する。
TritonBenchとKernelBenchの5つの評価チャネルでの実験は、我々の8BモデルAutoTritonがメインストリームの大規模モデルに匹敵するパフォーマンスを実現していることを示している。
論文 参考訳(メタデータ) (2025-07-08T05:38:24Z) - LoSiA: Efficient High-Rank Fine-Tuning via Subnet Localization and Optimization [6.641493851051085]
LoSiA(Low-Resources Subnet Integration Adaptation)は、トレーニングプロセス中に重要なパラメータを動的にローカライズし最適化する革新的な手法である。
LoSiA-ProはLoSiAのより高速な実装で、LoRAと比較してトレーニングのレイテンシを約27%削減します。
論文 参考訳(メタデータ) (2025-07-06T17:51:57Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - Edge-Enabled Real-time Railway Track Segmentation [0.0]
エッジ対応鉄道線路分割アルゴリズムを提案する。
ネットワーク構造を最適化し、トレーニング後のモデルを定量化することで、エッジアプリケーションに適したように最適化されている。
実験結果から,提案アルゴリズムの精度は83.3%であった。
論文 参考訳(メタデータ) (2024-01-21T13:45:52Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。