Fugu-MT 論文翻訳(概要): Solving Rubik's Cube Without Tricky Sampling

論文の概要: Solving Rubik's Cube Without Tricky Sampling

arxiv url: http://arxiv.org/abs/2411.19583v1
Date: Fri, 29 Nov 2024 09:56:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:28:07.980167
Title: Solving Rubik's Cube Without Tricky Sampling
Title（参考訳）: トリッキーサンプリングなしでルービックキューブを解く
Authors: Yicheng Lin, Siyu Liang,
Abstract要約: ルービックキューブはその広大な州空間とまばらな報酬構造を持ち、強化学習にとって重要な課題である。従来の研究では、解決された状態からコスト・ツー・ゴーの見積を伝播し、探索手法を取り入れることによって、この問題に対処していた。本稿では, ポリシ勾配法を用いて, ほぼ解決状態サンプリングに依存することなく, ルービックキューブを解く新しいRLアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 0.6445605125467574
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Rubiks Cube, with its vast state space and sparse reward structure, presents a significant challenge for reinforcement learning (RL) due to the difficulty of reaching rewarded states. Previous research addressed this by propagating cost-to-go estimates from the solved state and incorporating search techniques. These approaches differ from human strategies that start from fully scrambled cubes, which can be tricky for solving a general sparse-reward problem. In this paper, we introduce a novel RL algorithm using policy gradient methods to solve the Rubiks Cube without relying on near solved-state sampling. Our approach employs a neural network to predict cost patterns between states, allowing the agent to learn directly from scrambled states. Our method was tested on the 2x2x2 Rubiks Cube, where the cube was scrambled 50,000 times, and the model successfully solved it in over 99.4% of cases. Notably, this result was achieved using only the policy network without relying on tree search as in previous methods, demonstrating its effectiveness and potential for broader applications in sparse-reward problems.
Abstract（参考訳）: ルービックキューブはその広大な状態空間とまばらな報酬構造を持ち、報酬状態に到達するのが困難であるため、強化学習(RL)にとって重要な課題である。従来の研究では、解決された状態からコスト・ツー・ゴーの見積を伝播し、探索手法を取り入れることによって、この問題に対処していた。これらのアプローチは、完全にスクランブルされた立方体から始まる人間の戦略とは異なる。本稿では,ルービックキューブを近似状態サンプリングに頼らずに解くためにポリシー勾配法を用いた新しいRLアルゴリズムを提案する。このアプローチでは、ニューラルネットワークを使用して状態間のコストパターンを予測し、エージェントがスクランブル状態から直接学習することができる。我々の手法は2x2x2ルービックキューブで試験され、立方体は5万回スクランブルされ、99.4%のケースで解かれた。この結果は,従来の手法のように木探索に頼らずにポリシネットワークのみを用いて達成され,疎逆問題におけるより広範な応用の可能性を示した。

関連論文リスト

A Machine Learning Approach That Beats Large Rubik's Cubes [32.8176720435354]
本稿では,非常に大きなグラフ上でのパスフィニング問題に対する,機械学習に基づく新しいアプローチを提案する。 4x4x4 と 5x5x5 のルービック立方体に対する解を見つけることで、その効率性を実証する。
論文参考訳（メタデータ） (2025-02-18T20:22:38Z)
Node Classification and Search on the Rubik's Cube Graph with GNNs [55.2480439325792]
本研究では3x3x3ルービックのルービック問題を解くための深部幾何学モデルの応用に焦点を当てた。まず、立方体のグラフ表現と距離をモデルの最適化目的として定義することから始める。距離近似タスクはノード分類問題として再構成され、グラフニューラルネットワーク(GNN)を用いて効果的に処理される。
論文参考訳（メタデータ） (2025-01-30T18:52:43Z)
Smart Cubing for Graph Search: A Comparative Study [15.989407883187962]
立方体とコンカヤによる並列解法はSATソルバをハードインスタンスに拡張するための重要な方法である。キューブ・アンド・コンカーは純粋なSAT問題に対して成功したが、SATソルバへの応用はプロパゲータによって拡張され、ユニークな課題が提示される。本研究では, SATモジュロ対称性(SMS)を用いて, 対称性を破るプロパゲータが等方性グラフを除去する制約を学習することで探索空間を減少させる問題について検討する。
論文参考訳（メタデータ） (2025-01-27T22:15:54Z)
Solving a Rubik's Cube Using its Local Graph Structure [13.219469732742354]
ルービックスキューブには6つの面と12の可能なアクションがあり、小さくて制約のないアクション空間に繋がる。ルービックスキューブはグラフとして表すことができ、立方体の状態はノードであり、作用はエッジである。グラフ畳み込みネットワークに基づいて、スクランブルされたルービックスキューブの解を見つけるための新しい探索アルゴリズムを設計する。
論文参考訳（メタデータ） (2024-08-15T05:39:52Z)
Convex Relaxations of ReLU Neural Networks Approximate Global Optima in Polynomial Time [45.72323731094864]
本稿では,2層ReLULUネットワーク間における重み減衰と凸緩和の最適性ギャップについて検討する。私たちの研究は、なぜローカルメソッドがうまく機能するのかを理解することに新たな光を当てています。
論文参考訳（メタデータ） (2024-02-06T01:29:35Z)
A Novel Normalized-Cut Solver with Nearest Neighbor Hierarchical Initialization [107.07093621337084]
正規化カット(N-Cut)は、スペクトルクラスタリングの有名なモデルである。 1)正規化ラプラシア行列の連続スペクトル埋め込みを計算する; 2)$K$-meansまたはスペクトル回転による離散化。有名な座標降下法に基づく新しいN-Cut解法を提案する。
論文参考訳（メタデータ） (2023-11-26T07:11:58Z)
Polynomial-Time Solutions for ReLU Network Training: A Complexity Classification via Max-Cut and Zonotopes [70.52097560486683]
我々は、ReLUネットワークの近似の難しさがマックス・カッツ問題の複雑さを反映しているだけでなく、特定の場合において、それと完全に一致することを証明した。特に、$epsilonleqsqrt84/83-1approx 0.006$とすると、目的値に関して相対誤差$epsilon$でReLUネットワーク対象の近似グローバルデータセットを見つけることはNPハードであることが示される。
論文参考訳（メタデータ） (2023-11-18T04:41:07Z)
Learning To Dive In Branch And Bound [95.13209326119153]
グラフニューラルネットワークを用いて特定の潜水構造を学習するためのL2Diveを提案する。我々は、変数の割り当てを予測するために生成モデルを訓練し、線形プログラムの双対性を利用して潜水決定を行う。
論文参考訳（メタデータ） (2023-01-24T12:01:45Z)
TCT: Convexifying Federated Learning using Bootstrapped Neural Tangent Kernels [141.29156234353133]
最先端の凸学習手法は、クライアントが異なるデータ分布を持つ場合、集中型よりもはるかにパフォーマンスが劣る。我々は、この格差は、非NISTityが提示した課題に大きく起因していることを示す。本稿では,Train-Convexify Neural Network (TCT) 手法を提案する。
論文参考訳（メタデータ） (2022-07-13T16:58:22Z)
CubeTR: Learning to Solve The Rubiks Cube Using Transformers [0.0]
ルービックス立方体は、可能な構成の五重項に対して単一の解状態を持ち、非常にスパースな報酬をもたらす。提案モデルであるCubeTRは、より長いアクションシーケンスに参加し、スパース報酬の問題に対処する。
論文参考訳（メタデータ） (2021-11-11T03:17:28Z)
Self-Supervision is All You Need for Solving Rubik's Cube [0.0]
この研究は、ルービックキューブで表される、あらかじめ定義されたゴールで問題を解決するためのシンプルで効率的なディープラーニング手法を導入する。このような問題に対して、目標状態から分岐するランダムスクランブル上でディープニューラルネットワークをトレーニングすることは、ほぼ最適解を達成するのに十分であることを示す。
論文参考訳（メタデータ） (2021-06-06T15:38:50Z)
Learning by Fixing: Solving Math Word Problems with Weak Supervision [70.62896781438694]
数学用語問題(mwps)の従来のニューラルネットワークソルバは、完全な監視によって学習され、多様なソリューションを生み出すことができない。 MWPを学習するためのテキスト弱教師付きパラダイムを提案する。この手法は最終回答のアノテーションのみを必要とし、単一の問題に対して様々な解決策を生成できる。
論文参考訳（メタデータ） (2020-12-19T03:10:21Z)
Sanity-Checking Pruning Methods: Random Tickets can Win the Jackpot [55.37967301483917]
従来のプルーニングアルゴリズムの知恵は、プルーニング手法がトレーニングデータから情報を利用して良い作品を見つけることを示唆している。本稿では,近年の非構造的刈り取り法について,上記の信念の正当性チェックを行う。本稿では,各層に対して単純なデータに依存しないプーン比を提案し,サブネットワークを得るために各層をランダムにプーンする。
論文参考訳（メタデータ） (2020-09-22T17:36:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。