論文の概要: Strongly Solving 2048 4x3
- arxiv url: http://arxiv.org/abs/2510.04580v1
- Date: Mon, 06 Oct 2025 08:31:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.751935
- Title: Strongly Solving 2048 4x3
- Title(参考訳): 強解2048 4x3
- Authors: Tomoyuki Kaneko, Shuhei Yamashita,
- Abstract要約: 本報告では,4×3基板上の2048-4x312セルを原型より1列小さくした変異体を強く解いた。
最適戦略によって達成される期待スコアは、最も一般的な初期状態に対して約50724.26ドルである。
- 参考スコア(独自算出の注目度): 0.7734726150561088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 2048 is a stochastic single-player game involving 16 cells on a 4 by 4 grid, where a player chooses a direction among up, down, left, and right to obtain a score by merging two tiles with the same number located in neighboring cells along the chosen direction. This paper presents that a variant 2048-4x3 12 cells on a 4 by 3 board, one row smaller than the original, has been strongly solved. In this variant, the expected score achieved by an optimal strategy is about $50724.26$ for the most common initial states: ones with two tiles of number 2. The numbers of reachable states and afterstates are identified to be $1,152,817,492,752$ and $739,648,886,170$, respectively. The key technique is to partition state space by the sum of tile numbers on a board, which we call the age of a state. An age is invariant between a state and its successive afterstate after any valid action and is increased two or four by stochastic response from the environment. Therefore, we can partition state space by ages and enumerate all (after)states of an age depending only on states with the recent ages. Similarly, we can identify (after)state values by going along with ages in decreasing order.
- Abstract(参考訳): 2048は、4対4のグリッド上に16個のセルを配置し、プレイヤーが上下左右の方向を選択して、選択された方向に沿って隣接するセルに同じ数の2つのタイルをマージしてスコアを得る確率的なシングルプレイヤーゲームである。
本報告では,4×3基板上の2048-4x312セルを原型より1列小さくした変異体を強く解いた。
この変種では、最適戦略によって達成される期待スコアは、最も一般的な初期状態に対して約50724.26ドルである。
到達可能な州と後州はそれぞれ1,152,817,492,752$と739,648,886,170$である。
鍵となるテクニックは、状態の年齢と呼ばれるボード上のタイル番号の合計によって状態空間を分割することである。
有効な作用の後、状態と連続した後状態の間に年齢は不変であり、環境からの確率的応答により2〜4に増加する。
したがって、時代によって状態空間を分割し、最近の状態のみに依存する年齢のすべての状態(後の状態)を列挙することができる。
同様に、(後)状態の値を、順序を下げる年齢に合わせて識別することができる。
関連論文リスト
- Reinforcement Learning from Adversarial Preferences in Tabular MDPs [62.73758165845971]
我々は,敵対的嗜好を持つエピソードマルコフ決定プロセス(MDP)の新たな枠組みを導入する。
PbMDP では、標準的なエピソード MDP とは異なり、学習者は2つの候補アーム間の好みを観察する。
我々は、既知遷移の下で、T2/3$という残差境界を達成するアルゴリズムを開発する。
論文 参考訳(メタデータ) (2025-07-15T20:19:32Z) - Near-optimal Regret Using Policy Optimization in Online MDPs with Aggregate Bandit Feedback [49.84060509296641]
オンライン有限水平マルコフ決定過程を逆向きに変化した損失と総括的帯域幅フィードバック(フルバンド幅)を用いて研究する。
この種のフィードバックの下では、エージェントは、軌跡内の各中間段階における個々の損失よりも、軌跡全体に生じる総損失のみを観察する。
この設定のための最初のポリシー最適化アルゴリズムを紹介します。
論文 参考訳(メタデータ) (2025-02-06T12:03:24Z) - Set-Based Retrograde Analysis: Precomputing the Solution to 24-card Bridge Double Dummy Deals [11.732829185059801]
逆行解析はゲーム終了時の状態を解くためにゲームプレイングプログラムで使用される。
我々は,同じゲーム値を持つ状態の集合を演算することで,同じ結果が得られるセログレード解析を導入する。
論文 参考訳(メタデータ) (2024-11-13T23:43:01Z) - 4-bit Shampoo for Memory-Efficient Network Training [69.08646370812065]
二階計算は理論と実践における一階計算よりも優れている。
32ビット状態を圧縮してビット幅を小さくすることで、メモリ使用量の削減が期待できる。
4ビットシャンプーで実演した最初の4ビットの2階目を提案し,32ビットのシャンプーと同様の性能を維持した。
論文 参考訳(メタデータ) (2024-05-28T13:02:56Z) - Pseudorandom and Pseudoentangled States from Subset States [49.74460522523316]
計算基底の部分集合である$S$に対する部分集合状態は [ frac1sqrt|S|sum_iin S |irangle である。
固定された部分集合サイズ $|S|=s$ に対して、$s = 2n/omega(mathrmpoly(n))$ と $s=omega(mathrmpoly(n))$ が与えられたとき、ランダムな部分集合状態は情報理論上はHaarランダム状態と区別できないことを示す。
論文 参考訳(メタデータ) (2023-12-23T15:52:46Z) - Layered State Discovery for Incremental Autonomous Exploration [106.37656068276901]
Layered Autonomous Exploration (LAE) は、$tildemathcalO(LSrightarrow_LAln12(Srightarrow_LAln12(Srightarrow_LAln12(Srightarrow_LAln12(Srightar row_LAln12)Srightarrow_LAln12(Srightarrow_LAln12)Srightarrow_LAln12(Srightarrow_LAln12)のサンプル複雑性を達成するAXの新しいアルゴリズムである。
論文 参考訳(メタデータ) (2023-02-07T22:58:12Z) - Subsystem Trace-Distances of Two Random States [0.0]
カオス量子系における二状態判別について検討する。
有限数$N$の量子ビットに対する対応するクロスオーバーを解析的に計算する。
我々は,多体カオスに対するモデルの正確な対角化に対する予測を検証した。
論文 参考訳(メタデータ) (2022-10-06T21:16:10Z) - Policy Optimization for Markov Games: Unified Framework and Faster
Convergence [81.3266426402464]
このアルゴリズムのステートワイド平均ポリシはゲームの近似ナッシュ平衡(NE)に収束することを示す。
このアルゴリズムをマルチプレイヤー一般のMarkov Gamesに拡張し、CCE(Correlated Equilibria)への$mathcalwidetildeO(T-1/2)$収束率を示す。
論文 参考訳(メタデータ) (2022-06-06T14:23:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。