論文の概要: CubeTR: Learning to Solve The Rubiks Cube Using Transformers
- arxiv url: http://arxiv.org/abs/2111.06036v2
- Date: Sun, 29 Oct 2023 06:11:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 01:37:57.631792
- Title: CubeTR: Learning to Solve The Rubiks Cube Using Transformers
- Title(参考訳): cubetr: トランスフォーマーを使ってルービックキューブの解法を学ぶ
- Authors: Mustafa Ebrahim Chasmai
- Abstract要約: ルービックス立方体は、可能な構成の五重項に対して単一の解状態を持ち、非常にスパースな報酬をもたらす。
提案モデルであるCubeTRは、より長いアクションシーケンスに参加し、スパース報酬の問題に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since its first appearance, transformers have been successfully used in wide
ranging domains from computer vision to natural language processing.
Application of transformers in Reinforcement Learning by reformulating it as a
sequence modelling problem was proposed only recently. Compared to other
commonly explored reinforcement learning problems, the Rubiks cube poses a
unique set of challenges. The Rubiks cube has a single solved state for
quintillions of possible configurations which leads to extremely sparse
rewards. The proposed model CubeTR attends to longer sequences of actions and
addresses the problem of sparse rewards. CubeTR learns how to solve the Rubiks
cube from arbitrary starting states without any human prior, and after move
regularisation, the lengths of solutions generated by it are expected to be
very close to those given by algorithms used by expert human solvers. CubeTR
provides insights to the generalisability of learning algorithms to higher
dimensional cubes and the applicability of transformers in other relevant
sparse reward scenarios.
- Abstract(参考訳): 最初の登場以来、トランスフォーマーはコンピュータビジョンから自然言語処理まで幅広い領域でうまく使われてきた。
シーケンスモデリング問題として再構成した強化学習における変圧器の適用は,最近になって提案された。
他の一般的な強化学習問題と比較すると、rubiks cubeは独自の課題となっている。
rubiks cubeは、可能な構成のクエンチリオンに対して単一の解決状態を持ち、極めて少ない報酬をもたらす。
提案モデルであるCubeTRは、より長いアクションシーケンスに参加し、スパース報酬の問題に対処する。
キューブTRは、ルービックキューブを人間に先行しない任意の開始状態から解く方法を学び、移動正則化の後、それによって生成される解の長さは、専門家の人間の解法が使用するアルゴリズムに非常に近いと期待されている。
CubeTRは、学習アルゴリズムの高次元立方体への一般化可能性と、他のスパース報酬シナリオにおける変換器の適用性に関する洞察を提供する。
関連論文リスト
- Solving a Rubik's Cube Using its Local Graph Structure [13.219469732742354]
ルービックスキューブには6つの面と12の可能なアクションがあり、小さくて制約のないアクション空間に繋がる。
ルービックスキューブはグラフとして表すことができ、立方体の状態はノードであり、作用はエッジである。
グラフ畳み込みネットワークに基づいて、スクランブルされたルービックスキューブの解を見つけるための新しい探索アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-08-15T05:39:52Z) - Ring Attention with Blockwise Transformers for Near-Infinite Context [88.61687950039662]
本稿では,複数のデバイスにまたがって長いシーケンスを分散するために,ブロックワイドな自己注意とフィードフォワードの計算を利用する,ブロックワイドトランスフォーマーを用いたリングアテンション(リングアテンション)を提案する。
提案手法では,先行メモリ効率の変換器で達成可能なものよりも,デバイス数倍のシーケンスのトレーニングと推論が可能となる。
論文 参考訳(メタデータ) (2023-10-03T08:44:50Z) - The Clock and the Pizza: Two Stories in Mechanistic Explanation of
Neural Networks [59.26515696183751]
ニューラルネットワークにおけるアルゴリズム発見は、時としてより複雑であることを示す。
単純な学習問題でさえ、驚くほど多様なソリューションを許容できることが示されています。
論文 参考訳(メタデータ) (2023-06-30T17:59:13Z) - Towards Learning Rubik's Cube with N-tuple-based Reinforcement Learning [0.0]
この研究は、一般ボードゲーム(GBG)学習およびプレイフレームワークにおいて、ルービックキューブゲーム(またはパズル)の学習と解決方法を詳細に記述している。
立方体の状態表現、ねじれ、全キューブ回転、色変換でそれを変換する方法、およびルービックキューブにおける対称性の使用を説明する。
論文 参考訳(メタデータ) (2023-01-28T11:38:10Z) - Transformers Learn Shortcuts to Automata [52.015990420075944]
低深度変換器は任意の有限状態オートマトンを計算できる。
我々は,$O(log T)$レイヤを持つ変換器が,長さ$T$の入力シーケンス上で,オートマトンを正確に再現可能であることを示す。
さらに、これらの解の脆性について検討し、潜在的な緩和を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:45:48Z) - Video Anomaly Detection by Solving Decoupled Spatio-Temporal Jigsaw
Puzzles [67.39567701983357]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要なトピックである。
近年の自己教師型学習の進歩に触発された本論文は,直感的かつ難解なプレテキストタスクを解くことによって,VADに対処する。
提案手法は3つの公開ベンチマークにおいて最先端のベンチマークよりも優れている。
論文 参考訳(メタデータ) (2022-07-20T19:49:32Z) - Benchmarking Robot Manipulation with the Rubik's Cube [15.922643222904172]
高精度な操作とシーケンシャルな操作を同時に行うためのベンチマークとして,Rubikの立方体演算を提案する。
本稿では,ルービックキューブ操作の精度と速度を定量的に測定するプロトコルを提案する。
本稿では,PR2ロボット上での2つの異なるベースラインアプローチについて,このプロトコルを実証する。
論文 参考訳(メタデータ) (2022-02-14T22:34:18Z) - Discovering Non-monotonic Autoregressive Orderings with Variational
Inference [67.27561153666211]
我々は、訓練データから高品質な生成順序を純粋に検出する、教師なし並列化可能な学習装置を開発した。
エンコーダを非因果的注意を持つトランスフォーマーとして実装し、1つのフォワードパスで置換を出力する。
言語モデリングタスクにおける経験的結果から,我々の手法は文脈認識であり,一定の順序と競合する,あるいはより優れた順序を見つけることができる。
論文 参考訳(メタデータ) (2021-10-27T16:08:09Z) - Puzzle Solving without Search or Human Knowledge: An Unnatural Language
Approach [0.0]
Generative Pre-trained Transformer (GPT-2) のテキスト構造化ゲーム表記学習への応用は、スパース報酬ゲームプレイを探索するためのモデル環境を提供する。
トランスフォーマーアーキテクチャは、迷路、ルービック、スドゥークの解法を記述した解決されたテキストアーカイブのトレーニングに適している。
論文 参考訳(メタデータ) (2021-09-07T01:20:28Z) - Self-Supervision is All You Need for Solving Rubik's Cube [0.0]
この研究は、ルービックキューブで表される、あらかじめ定義されたゴールで問題を解決するためのシンプルで効率的なディープラーニング手法を導入する。
このような問題に対して、目標状態から分岐するランダムスクランブル上でディープニューラルネットワークをトレーニングすることは、ほぼ最適解を達成するのに十分であることを示す。
論文 参考訳(メタデータ) (2021-06-06T15:38:50Z) - A Practical Method for Constructing Equivariant Multilayer Perceptrons
for Arbitrary Matrix Groups [115.58550697886987]
行列群の同変層を解くための完全一般的なアルゴリズムを提供する。
他作品からのソリューションを特殊ケースとして回収するだけでなく、これまで取り組んだことのない複数のグループと等価な多層パーセプトロンを構築します。
提案手法は, 粒子物理学および力学系への応用により, 非同変基底線より優れる。
論文 参考訳(メタデータ) (2021-04-19T17:21:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。