論文の概要: Planning behavior in a recurrent neural network that plays Sokoban
- arxiv url: http://arxiv.org/abs/2407.15421v1
- Date: Mon, 22 Jul 2024 06:57:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 15:50:50.041968
- Title: Planning behavior in a recurrent neural network that plays Sokoban
- Title(参考訳): ソコバンを再生するリカレントニューラルネットワークにおける計画行動
- Authors: Adrià Garriga-Alonso, Mohammad Taufeeque, Adam Gleave,
- Abstract要約: モデルレス強化学習でソコバンを再生するために、リカレントニューラルネットワーク(RNN)を訓練する。
テスト時にエピソードの開始に余分なステップを追加することで、RNNの成功率が向上することがわかった。
我々の結果は、段階ごとの罰則にもかかわらず、RNNはペアリングによる思考に時間がかかることを学習していることを示唆している。
- 参考スコア(独自算出の注目度): 2.7577537747598067
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: To predict how advanced neural networks generalize to novel situations, it is essential to understand how they reason. Guez et al. (2019, "An investigation of model-free planning") trained a recurrent neural network (RNN) to play Sokoban with model-free reinforcement learning. They found that adding extra computation steps to the start of episodes at test time improves the RNN's success rate. We further investigate this phenomenon, finding that it rapidly emerges early on in training and then slowly fades, but only for comparatively easier levels. The RNN also often takes redundant actions at episode starts, and these are reduced by adding extra computation steps. Our results suggest that the RNN learns to take time to think by `pacing', despite the per-step penalties, indicating that training incentivizes planning capabilities. The small size (1.29M parameters) and interesting behavior of this model make it an excellent model organism for mechanistic interpretability.
- Abstract(参考訳): ニューラルネットワークがいかに新しい状況に一般化するかを予測するためには、その原因を理解することが不可欠である。
Guez et al (2019, "An investigation of model-free planning") は、モデルなし強化学習でソコバンをプレイするためにリカレントニューラルネットワーク (RNN) を訓練した。
テスト時にエピソードの開始に余分な計算ステップを追加することで、RNNの成功率が向上することがわかった。
さらに、この現象を調査し、トレーニングの早い段階で急速に出現し、徐々に消失するが、比較的簡単なレベルに留まる。
RNNはエピソード開始時に冗長なアクションを取ることが多く、これらは余分な計算ステップを追加することで削減される。
我々の結果は、段階ごとの罰則にもかかわらず、RNNは「平和」による思考に時間がかかることを学び、訓練が計画能力にインセンティブを与えることを示唆している。
このモデルの小さなサイズ(1.29Mパラメータ)と興味深い振る舞いは、機械的解釈性に優れたモデル生物となる。
関連論文リスト
- RelChaNet: Neural Network Feature Selection using Relative Change Scores [0.0]
本稿では、ニューラルネットワークの入力層にニューロンのプルーニングと再成長を利用する、新しくて軽量な特徴選択アルゴリズムであるRelChaNetを紹介する。
我々の手法は一般に現在の最先端手法よりも優れており、特にMNISTデータセットの平均精度を2%向上させる。
論文 参考訳(メタデータ) (2024-10-03T09:56:39Z) - Scalable Bayesian Inference in the Era of Deep Learning: From Gaussian Processes to Deep Neural Networks [0.5827521884806072]
大規模なデータセットでトレーニングされた大規模なニューラルネットワークは、マシンラーニングの主要なパラダイムになっています。
この論文は、モデル不確実性を持つニューラルネットワークを装備するためのスケーラブルな手法を開発する。
論文 参考訳(メタデータ) (2024-04-29T23:38:58Z) - From "What" to "When" -- a Spiking Neural Network Predicting Rare Events
and Time to their Occurrence [0.0]
本研究は, 漏洩型統合火災(LIF)ニューロンからなるSNNを用いて, 対応する予測モデルを学習するための新しいアプローチを提案する。
提案手法は, 特殊設計した局所シナプス塑性規則と新しいカラム層SNNアーキテクチャを利用する。
本論文で述べるSNNは,高精度な機械学習技術と比較して精度が高いことを示した。
論文 参考訳(メタデータ) (2023-11-09T08:47:23Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Can deep neural networks learn process model structure? An assessment
framework and analysis [0.2580765958706854]
本稿では,新しい適合度,精度,一般化の指標を補完する評価手法を提案する。
このフレームワークを単純な制御-フローの振る舞いを持つ複数のプロセスモデルに適用する。
以上の結果から, 単純化モデルにおいても, オーバーフィッティング対策の注意深い調整が必要であることが示唆された。
論文 参考訳(メタデータ) (2022-02-24T09:44:13Z) - Training Quantized Deep Neural Networks via Cooperative Coevolution [27.967480639403796]
本稿では,ディープニューラルネットワーク(DNN)の定量化手法を提案する。
協調的共進化の枠組みでは,分布推定アルゴリズムを用いて低ビット重みの探索を行う。
実験の結果,Cifar-10データセット上で4ビットのResNet-20を,精度を犠牲にすることなくトレーニングできることがわかった。
論文 参考訳(メタデータ) (2021-12-23T09:13:13Z) - Training Feedback Spiking Neural Networks by Implicit Differentiation on
the Equilibrium State [66.2457134675891]
スパイキングニューラルネットワーク(英: Spiking Neural Network、SNN)は、ニューロモルフィックハードウェア上でエネルギー効率の高い実装を可能にする脳にインスパイアされたモデルである。
既存のほとんどの手法は、人工ニューラルネットワークのバックプロパゲーションフレームワークとフィードフォワードアーキテクチャを模倣している。
本稿では,フォワード計算の正逆性に依存しない新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T07:46:54Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Graph Neural Networks for Motion Planning [108.51253840181677]
低次元問題に対する高密度固定グラフ上のGNNと高次元問題に対するサンプリングベースGNNの2つの手法を提案する。
RRT(Rapidly-Exploring Random Trees)におけるクリティカルノードの特定やサンプリング分布の学習といった計画上の問題にGNNが取り組む能力について検討する。
臨界サンプリング、振り子、6つのDoFロボットアームによる実験では、GNNは従来の分析手法の改善だけでなく、完全に接続されたニューラルネットワークや畳み込みニューラルネットワークを用いた学習アプローチも示している。
論文 参考訳(メタデータ) (2020-06-11T08:19:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。