論文の概要: Planning in a recurrent neural network that plays Sokoban
- arxiv url: http://arxiv.org/abs/2407.15421v2
- Date: Thu, 24 Oct 2024 18:06:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 15:56:37.632054
- Title: Planning in a recurrent neural network that plays Sokoban
- Title(参考訳): ソコバンを再生するリカレントニューラルネットワークの計画
- Authors: Mohammad Taufeeque, Philip Quirke, Maximilian Li, Chris Cundy, Aaron David Tucker, Adam Gleave, Adrià Garriga-Alonso,
- Abstract要約: ニューラルネットワークが新しい状況にどのように一般化するかは、計画プロセスを通じて行動的を選択することを学習したかどうかに依存する。
我々は、Skobanをプレイするように訓練された繰り返しNNが計画しているように見え、RNNの成功率を改善する余分な計算ステップが得られた。
モデル手術を行い、畳み込みNNが10×10のアーキテクチャ限界を超えて一般化できるようにする。
- 参考スコア(独自算出の注目度): 6.059513516334741
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: How a neural network (NN) generalizes to novel situations depends on whether it has learned to select actions heuristically or via a planning process. "An investigation of model-free planning" (Guez et al. 2019) found that a recurrent NN (RNN) trained to play Sokoban appears to plan, with extra computation steps improving the RNN's success rate. We replicate and expand on their behavioral analysis, finding the RNN learns to give itself extra computation steps in complex situations by "pacing" in cycles. Moreover, we train linear probes that predict the future actions taken by the network and find that intervening on the hidden state using these probes controls the agent's subsequent actions. Leveraging these insights, we perform model surgery, enabling the convolutional NN to generalize beyond its 10x10 architectural limit to arbitrarily sized inputs. The resulting model solves challenging, highly off-distribution levels. We open-source our model and code, and believe the neural network's small size (1.29M parameters) makes it an excellent model organism to deepen our understanding of learned planning.
- Abstract(参考訳): ニューラルネットワーク(NN)が新しい状況にどのように一般化するかは、ヒューリスティックに行動を選択することを学んだか、計画プロセスを通じて学んだかによって異なる。
『モデルフリープランニングの調査』(Guezら、2019年)では、リカレントNN(RNN)がソコバンのプレイを訓練し、RNNの成功率を改善する余分な計算ステップを計画しているように見える。
我々は彼らの行動分析を再現し、拡張し、RNNがサイクルで「ペースト」することで複雑な状況で余分な計算ステップを与えることを学習した。
さらに,ネットワークによる将来の行動を予測する線形プローブを訓練し,これらのプローブを用いて隠蔽状態に介入することで,エージェントのその後の行動を制御する。
これらの知見を活用して、モデル手術を行い、畳み込みNNは、任意のサイズの入力に対して10×10のアーキテクチャ限界を超えて一般化することができる。
結果として得られるモデルは、難しい、高い分配レベルを解決します。
当社はモデルとコードをオープンソースとして公開し、ニューラルネットワークの小さなサイズ(1.29Mパラメータ)が学習計画の理解を深めるための優れたモデル生物であると信じています。
関連論文リスト
- RelChaNet: Neural Network Feature Selection using Relative Change Scores [0.0]
本稿では、ニューラルネットワークの入力層にニューロンのプルーニングと再成長を利用する、新しくて軽量な特徴選択アルゴリズムであるRelChaNetを紹介する。
我々の手法は一般に現在の最先端手法よりも優れており、特にMNISTデータセットの平均精度を2%向上させる。
論文 参考訳(メタデータ) (2024-10-03T09:56:39Z) - Scalable Bayesian Inference in the Era of Deep Learning: From Gaussian Processes to Deep Neural Networks [0.5827521884806072]
大規模なデータセットでトレーニングされた大規模なニューラルネットワークは、マシンラーニングの主要なパラダイムになっています。
この論文は、モデル不確実性を持つニューラルネットワークを装備するためのスケーラブルな手法を開発する。
論文 参考訳(メタデータ) (2024-04-29T23:38:58Z) - From "What" to "When" -- a Spiking Neural Network Predicting Rare Events
and Time to their Occurrence [0.0]
本研究は, 漏洩型統合火災(LIF)ニューロンからなるSNNを用いて, 対応する予測モデルを学習するための新しいアプローチを提案する。
提案手法は, 特殊設計した局所シナプス塑性規則と新しいカラム層SNNアーキテクチャを利用する。
本論文で述べるSNNは,高精度な機械学習技術と比較して精度が高いことを示した。
論文 参考訳(メタデータ) (2023-11-09T08:47:23Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Can deep neural networks learn process model structure? An assessment
framework and analysis [0.2580765958706854]
本稿では,新しい適合度,精度,一般化の指標を補完する評価手法を提案する。
このフレームワークを単純な制御-フローの振る舞いを持つ複数のプロセスモデルに適用する。
以上の結果から, 単純化モデルにおいても, オーバーフィッティング対策の注意深い調整が必要であることが示唆された。
論文 参考訳(メタデータ) (2022-02-24T09:44:13Z) - Training Quantized Deep Neural Networks via Cooperative Coevolution [27.967480639403796]
本稿では,ディープニューラルネットワーク(DNN)の定量化手法を提案する。
協調的共進化の枠組みでは,分布推定アルゴリズムを用いて低ビット重みの探索を行う。
実験の結果,Cifar-10データセット上で4ビットのResNet-20を,精度を犠牲にすることなくトレーニングできることがわかった。
論文 参考訳(メタデータ) (2021-12-23T09:13:13Z) - Training Feedback Spiking Neural Networks by Implicit Differentiation on
the Equilibrium State [66.2457134675891]
スパイキングニューラルネットワーク(英: Spiking Neural Network、SNN)は、ニューロモルフィックハードウェア上でエネルギー効率の高い実装を可能にする脳にインスパイアされたモデルである。
既存のほとんどの手法は、人工ニューラルネットワークのバックプロパゲーションフレームワークとフィードフォワードアーキテクチャを模倣している。
本稿では,フォワード計算の正逆性に依存しない新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T07:46:54Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Graph Neural Networks for Motion Planning [108.51253840181677]
低次元問題に対する高密度固定グラフ上のGNNと高次元問題に対するサンプリングベースGNNの2つの手法を提案する。
RRT(Rapidly-Exploring Random Trees)におけるクリティカルノードの特定やサンプリング分布の学習といった計画上の問題にGNNが取り組む能力について検討する。
臨界サンプリング、振り子、6つのDoFロボットアームによる実験では、GNNは従来の分析手法の改善だけでなく、完全に接続されたニューラルネットワークや畳み込みニューラルネットワークを用いた学習アプローチも示している。
論文 参考訳(メタデータ) (2020-06-11T08:19:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。