論文の概要: Towards Learning Rubik's Cube with N-tuple-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2301.12167v1
- Date: Sat, 28 Jan 2023 11:38:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 18:37:30.503294
- Title: Towards Learning Rubik's Cube with N-tuple-based Reinforcement Learning
- Title(参考訳): N-tuple-based reinforcement learning によるルービックキューブの学習
- Authors: Wolfgang Konen
- Abstract要約: この研究は、一般ボードゲーム(GBG)学習およびプレイフレームワークにおいて、ルービックキューブゲーム(またはパズル)の学習と解決方法を詳細に記述している。
立方体の状態表現、ねじれ、全キューブ回転、色変換でそれを変換する方法、およびルービックキューブにおける対称性の使用を説明する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This work describes in detail how to learn and solve the Rubik's cube game
(or puzzle) in the General Board Game (GBG) learning and playing framework. We
cover the cube sizes 2x2x2 and 3x3x3. We describe in detail the cube's state
representation, how to transform it with twists, whole-cube rotations and color
transformations and explain the use of symmetries in Rubik's cube. Next, we
discuss different n-tuple representations for the cube, how we train the agents
by reinforcement learning and how we improve the trained agents during
evaluation by MCTS wrapping. We present results for agents that learn Rubik's
cube from scratch, with and without MCTS wrapping, with and without symmetries
and show that both, MCTS wrapping and symmetries, increase computational costs,
but lead at the same time to much better results. We can solve the 2x2x2 cube
completely, and the 3x3x3 cube in the majority of the cases for scrambled cubes
up to p = 15 (QTM). We cannot yet reliably solve 3x3x3 cubes with more than 15
scrambling twists. Although our computational costs are higher with MCTS
wrapping and with symmetries than without, they are still considerably lower
than in the approaches of McAleer et al. (2018, 2019) and Agostinelli et al.
(2019) who provide the best Rubik's cube learning agents so far.
- Abstract(参考訳): この研究は、一般ボードゲーム(GBG)学習およびプレイフレームワークにおいて、ルービックキューブゲーム(またはパズル)の学習と解決方法を詳細に記述している。
キューブサイズは2x2x2と3x3x3です。
我々はキューブの状態表現を詳細に記述し、それをねじれ、全キューブ回転、色変換で変換する方法を説明し、ルービックキューブにおける対称性の使用を説明する。
次に、キューブの異なるn-タプル表現、強化学習によるエージェントのトレーニング方法、およびmctsラッピングによる評価中のエージェントの改善方法について論じる。
本稿では, MCTS の包みをゼロから学習し, MCTS の包みを伴わないエージェントに対して, MCTS の包みと対称性の両面から, 計算コストを増大させるとともに, より優れた結果をもたらすことを示す。
2x2x2立方体を完全に解くことができ、3x3x3立方体の大部分は、p = 15(qtm)までのスクランブル立方体である。
15以上のねじれで3x3x3立方体を確実に解くことはできない。
計算コストはmctsラッピングと対称性よりも高いが、これまでのルービックキューブ学習エージェントを提供するmcaleer et al.(2018年、2019年)やagostinelli et al.(2019年)のアプローチよりもはるかに低い。
関連論文リスト
- Solving a Rubik's Cube Using its Local Graph Structure [13.219469732742354]
ルービックスキューブには6つの面と12の可能なアクションがあり、小さくて制約のないアクション空間に繋がる。
ルービックスキューブはグラフとして表すことができ、立方体の状態はノードであり、作用はエッジである。
グラフ畳み込みネットワークに基づいて、スクランブルされたルービックスキューブの解を見つけるための新しい探索アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-08-15T05:39:52Z) - Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - Language-Image Models with 3D Understanding [59.499585515469974]
LV3Dと呼ばれる2Dおよび3Dのための大規模事前学習データセットを開発した。
次に,新しいMLLMであるCube-LLMを導入し,LV3Dで事前学習する。
純粋なデータスケーリングは、3D特有のアーキテクチャ設計やトレーニング目的を使わずに、強力な3D知覚能力を実現することを示す。
論文 参考訳(メタデータ) (2024-05-06T17:57:27Z) - A Unified Approach to Reinforcement Learning, Quantal Response
Equilibria, and Two-Player Zero-Sum Games [104.3339905200105]
この研究は、ミラー降下と非ユークリッド近位勾配アルゴリズムにインスパイアされた、磁気ミラー降下と呼ばれるアルゴリズムを研究する。
我々の貢献は、2人のプレイヤーゼロサムゲームにおける平衡解法および強化学習へのアプローチとしての磁気ミラー降下の利点を実証することである。
論文 参考訳(メタデータ) (2022-06-12T19:49:14Z) - Benchmarking Robot Manipulation with the Rubik's Cube [15.922643222904172]
高精度な操作とシーケンシャルな操作を同時に行うためのベンチマークとして,Rubikの立方体演算を提案する。
本稿では,ルービックキューブ操作の精度と速度を定量的に測定するプロトコルを提案する。
本稿では,PR2ロボット上での2つの異なるベースラインアプローチについて,このプロトコルを実証する。
論文 参考訳(メタデータ) (2022-02-14T22:34:18Z) - CubeTR: Learning to Solve The Rubiks Cube Using Transformers [0.0]
ルービックス立方体は、可能な構成の五重項に対して単一の解状態を持ち、非常にスパースな報酬をもたらす。
提案モデルであるCubeTRは、より長いアクションシーケンスに参加し、スパース報酬の問題に対処する。
論文 参考訳(メタデータ) (2021-11-11T03:17:28Z) - Solving Rubik's Cube via Quantum Mechanics and Deep Reinforcement
Learning [0.0]
ルービックキューブ(Rubik's Cube)は、およそ4.3倍の1019ドル(約4万3000円)の価格設定を含むパズルの1つである。
我々は、ルービック群のユニタリ表現と、その幾何学的制約からキューブを記述する量子形式論を開発する。
キューブは4つの位相で解かれるが、いずれもイジングモデルにインスパイアされたスペクトルに基づくハミルトンの報酬に基づいている。
論文 参考訳(メタデータ) (2021-09-15T10:30:27Z) - Self-Supervision is All You Need for Solving Rubik's Cube [0.0]
この研究は、ルービックキューブで表される、あらかじめ定義されたゴールで問題を解決するためのシンプルで効率的なディープラーニング手法を導入する。
このような問題に対して、目標状態から分岐するランダムスクランブル上でディープニューラルネットワークをトレーニングすることは、ほぼ最適解を達成するのに十分であることを示す。
論文 参考訳(メタデータ) (2021-06-06T15:38:50Z) - A Practical Method for Constructing Equivariant Multilayer Perceptrons
for Arbitrary Matrix Groups [115.58550697886987]
行列群の同変層を解くための完全一般的なアルゴリズムを提供する。
他作品からのソリューションを特殊ケースとして回収するだけでなく、これまで取り組んだことのない複数のグループと等価な多層パーセプトロンを構築します。
提案手法は, 粒子物理学および力学系への応用により, 非同変基底線より優れる。
論文 参考訳(メタデータ) (2021-04-19T17:21:54Z) - Tangent Space Backpropagation for 3D Transformation Groups [71.41252518419486]
3Dトランスフォーメーショングループは3Dビジョンやロボット工学で広く利用されている。
ユークリッド空間に3D変換を埋め込む標準的なバックプロパゲーションアプローチは、数値的困難に苦しむ。
3D変換の群構造を利用する新しいライブラリを紹介します。
論文 参考訳(メタデータ) (2021-03-22T17:33:30Z) - Recurrent Multi-view Alignment Network for Unsupervised Surface
Registration [79.72086524370819]
非厳格な登録をエンドツーエンドで学習することは、本質的に高い自由度とラベル付きトレーニングデータの欠如により困難である。
我々は、いくつかの剛性変換のポイントワイドな組み合わせで、非剛性変換を表現することを提案する。
また,投影された多視点2次元深度画像上での3次元形状の類似度を計測する可微分損失関数も導入する。
論文 参考訳(メタデータ) (2020-11-24T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。