論文の概要: Planning in a recurrent neural network that plays Sokoban
- arxiv url: http://arxiv.org/abs/2407.15421v3
- Date: Fri, 30 May 2025 00:08:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 15:03:33.079946
- Title: Planning in a recurrent neural network that plays Sokoban
- Title(参考訳): ソコバンを再生するリカレントニューラルネットワークの計画
- Authors: Mohammad Taufeeque, Philip Quirke, Maximilian Li, Chris Cundy, Aaron David Tucker, Adam Gleave, Adrià Garriga-Alonso,
- Abstract要約: 我々は、逐次的かつ不可逆な決定を必要とするパズルであるソコバンで訓練されたリカレントニューラルネットワーク(RNN)を分析する。
RNNには因果的計画表現があり、今後50段階の行動を予測する。
トレーニングされたRNNを、トレーニング体制を超えた堅牢な表現を実証し、より大きく、配布外なソコバンパズルに拡張する。
- 参考スコア(独自算出の注目度): 6.059513516334741
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Planning is essential for solving complex tasks, yet the internal mechanisms underlying planning in neural networks remain poorly understood. Building on prior work, we analyze a recurrent neural network (RNN) trained on Sokoban, a challenging puzzle requiring sequential, irreversible decisions. We find that the RNN has a causal plan representation which predicts its future actions about 50 steps in advance. The quality and length of the represented plan increases over the first few steps. We uncover a surprising behavior: the RNN "paces" in cycles to give itself extra computation at the start of a level, and show that this behavior is incentivized by training. Leveraging these insights, we extend the trained RNN to significantly larger, out-of-distribution Sokoban puzzles, demonstrating robust representations beyond the training regime. We open-source our model and code, and believe the neural network's interesting behavior makes it an excellent model organism to deepen our understanding of learned planning.
- Abstract(参考訳): 複雑なタスクを解決するには計画が不可欠だが、ニューラルネットワークにおける計画の基礎となる内部メカニズムはいまだに理解されていない。
以前の作業に基づいて、Sokobanでトレーニングされたリカレントニューラルネットワーク(RNN)を分析します。
RNNには因果的計画表現があり、今後50段階の行動を予測する。
表される計画の品質と長さは、最初の数ステップで増加します。
RNNはサイクルを"ペース"して、レベル開始時に余分な計算を行い、この振る舞いがトレーニングによってインセンティブを得ていることを示す。
これらの知見を活用して、トレーニングされたRNNを、トレーニング体制を超えた堅牢な表現を実証し、より大きく、配布されていないソコバンパズルに拡張する。
当社はモデルとコードをオープンソースとして公開し、ニューラルネットワークの興味深い振る舞いによって、学習した計画に対する理解を深めるための優れたモデル生物であると信じています。
関連論文リスト
- RelChaNet: Neural Network Feature Selection using Relative Change Scores [0.0]
本稿では、ニューラルネットワークの入力層にニューロンのプルーニングと再成長を利用する、新しくて軽量な特徴選択アルゴリズムであるRelChaNetを紹介する。
我々の手法は一般に現在の最先端手法よりも優れており、特にMNISTデータセットの平均精度を2%向上させる。
論文 参考訳(メタデータ) (2024-10-03T09:56:39Z) - Scalable Bayesian Inference in the Era of Deep Learning: From Gaussian Processes to Deep Neural Networks [0.5827521884806072]
大規模なデータセットでトレーニングされた大規模なニューラルネットワークは、マシンラーニングの主要なパラダイムになっています。
この論文は、モデル不確実性を持つニューラルネットワークを装備するためのスケーラブルな手法を開発する。
論文 参考訳(メタデータ) (2024-04-29T23:38:58Z) - From "What" to "When" -- a Spiking Neural Network Predicting Rare Events
and Time to their Occurrence [0.0]
本研究は, 漏洩型統合火災(LIF)ニューロンからなるSNNを用いて, 対応する予測モデルを学習するための新しいアプローチを提案する。
提案手法は, 特殊設計した局所シナプス塑性規則と新しいカラム層SNNアーキテクチャを利用する。
本論文で述べるSNNは,高精度な機械学習技術と比較して精度が高いことを示した。
論文 参考訳(メタデータ) (2023-11-09T08:47:23Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Can deep neural networks learn process model structure? An assessment
framework and analysis [0.2580765958706854]
本稿では,新しい適合度,精度,一般化の指標を補完する評価手法を提案する。
このフレームワークを単純な制御-フローの振る舞いを持つ複数のプロセスモデルに適用する。
以上の結果から, 単純化モデルにおいても, オーバーフィッティング対策の注意深い調整が必要であることが示唆された。
論文 参考訳(メタデータ) (2022-02-24T09:44:13Z) - Training Quantized Deep Neural Networks via Cooperative Coevolution [27.967480639403796]
本稿では,ディープニューラルネットワーク(DNN)の定量化手法を提案する。
協調的共進化の枠組みでは,分布推定アルゴリズムを用いて低ビット重みの探索を行う。
実験の結果,Cifar-10データセット上で4ビットのResNet-20を,精度を犠牲にすることなくトレーニングできることがわかった。
論文 参考訳(メタデータ) (2021-12-23T09:13:13Z) - Training Feedback Spiking Neural Networks by Implicit Differentiation on
the Equilibrium State [66.2457134675891]
スパイキングニューラルネットワーク(英: Spiking Neural Network、SNN)は、ニューロモルフィックハードウェア上でエネルギー効率の高い実装を可能にする脳にインスパイアされたモデルである。
既存のほとんどの手法は、人工ニューラルネットワークのバックプロパゲーションフレームワークとフィードフォワードアーキテクチャを模倣している。
本稿では,フォワード計算の正逆性に依存しない新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T07:46:54Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Graph Neural Networks for Motion Planning [108.51253840181677]
低次元問題に対する高密度固定グラフ上のGNNと高次元問題に対するサンプリングベースGNNの2つの手法を提案する。
RRT(Rapidly-Exploring Random Trees)におけるクリティカルノードの特定やサンプリング分布の学習といった計画上の問題にGNNが取り組む能力について検討する。
臨界サンプリング、振り子、6つのDoFロボットアームによる実験では、GNNは従来の分析手法の改善だけでなく、完全に接続されたニューラルネットワークや畳み込みニューラルネットワークを用いた学習アプローチも示している。
論文 参考訳(メタデータ) (2020-06-11T08:19:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。