論文の概要: Interpreting learned search: finding a transition model and value function in an RNN that plays Sokoban
- arxiv url: http://arxiv.org/abs/2506.10138v1
- Date: Wed, 11 Jun 2025 19:36:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.415041
- Title: Interpreting learned search: finding a transition model and value function in an RNN that plays Sokoban
- Title(参考訳): 学習検索の解釈--ソコバンを再生するRNNにおける遷移モデルと値関数の探索
- Authors: Mohammad Taufeeque, Aaron David Tucker, Adam Gleave, Adrià Garriga-Alonso,
- Abstract要約: 我々はパズルゲーム「ソコバン」をプレイするために訓練された畳み込みリカレントニューラルネットワーク(RNN)を部分的にリバースエンジニアリングした。
以前の研究によると、このネットワークはテストタイムの計算量を増やして、より多くのレベルを解決している。
- 参考スコア(独自算出の注目度): 3.274397973865673
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We partially reverse-engineer a convolutional recurrent neural network (RNN) trained to play the puzzle game Sokoban with model-free reinforcement learning. Prior work found that this network solves more levels with more test-time compute. Our analysis reveals several mechanisms analogous to components of classic bidirectional search. For each square, the RNN represents its plan in the activations of channels associated with specific directions. These state-action activations are analogous to a value function - their magnitudes determine when to backtrack and which plan branch survives pruning. Specialized kernels extend these activations (containing plan and value) forward and backward to create paths, forming a transition model. The algorithm is also unlike classical search in some ways. State representation is not unified; instead, the network considers each box separately. Each layer has its own plan representation and value function, increasing search depth. Far from being inscrutable, the mechanisms leveraging test-time compute learned in this network by model-free training can be understood in familiar terms.
- Abstract(参考訳): 我々は、モデルレス強化学習を用いてパズルゲーム「ソコバン」をプレイするよう訓練された畳み込みリカレントニューラルネットワーク(RNN)を部分的にリバースエンジニアリングした。
以前の研究によると、このネットワークはテストタイムの計算量を増やして、より多くのレベルを解決している。
分析の結果,古典的双方向探索に類似したいくつかのメカニズムが明らかになった。
各正方形について、RNNは特定の方向に関連するチャネルの活性化におけるその計画を表している。
これらの状態-作用の活性化は値関数に類似しており、その大きさはいつバックトラックするか、どのプラン分岐がプルーニングを生き残るかを決定する。
特殊化されたカーネルはこれらのアクティベーション(プランと値を含む)を前後に拡張してパスを生成し、遷移モデルを形成する。
このアルゴリズムは、いくつかの点で古典検索とは異なる。
状態表現は統一されていないが、ネットワークはそれぞれのボックスを別々に考える。
各層は独自の計画表現と値関数を持ち、探索深度を増大させる。
このネットワークで学んだテスト時間計算をモデルなしのトレーニングで活用するメカニズムは、精通した言葉で理解することができる。
関連論文リスト
- Disentangling Rich Dynamics from Feature Learning: A Framework for Independent Measurements [5.369150515904139]
本稿では,(1)パフォーマンスから独立してリッチなレシエーションを定量化する尺度,(2)可視化のための解釈可能な特徴指標を紹介する。
CIFAR-10/100におけるVGG16とResNet18のバッチ正規化とトレーニングセットサイズが遅延/リッチダイナミクスに与える影響を明らかにする。
論文 参考訳(メタデータ) (2024-10-05T18:53:48Z) - Planning in a recurrent neural network that plays Sokoban [6.059513516334741]
我々は、逐次的かつ不可逆な決定を必要とするパズルであるソコバンで訓練されたリカレントニューラルネットワーク(RNN)を分析する。
RNNには因果的計画表現があり、今後50段階の行動を予測する。
トレーニングされたRNNを、トレーニング体制を超えた堅牢な表現を実証し、より大きく、配布外なソコバンパズルに拡張する。
論文 参考訳(メタデータ) (2024-07-22T06:57:34Z) - Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks [69.38572074372392]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。
私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文 参考訳(メタデータ) (2023-07-13T16:39:08Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Do deep neural networks have an inbuilt Occam's razor? [1.1470070927586016]
構造データとOccam's razor-likeインダクティブバイアスが組み合わさった単純な関数に対する構造データは、複雑さを伴う関数の指数的成長に反することを示す。
この分析により、構造データと(コルモゴロフ)単純関数に対するOccam's razor-likeインダクティブバイアスが組み合わさって、複雑さを伴う関数の指数的成長に対抗できるほど強いことがDNNの成功の鍵であることが明らかになった。
論文 参考訳(メタデータ) (2023-04-13T16:58:21Z) - Discovering dynamical features of Hodgkin-Huxley-type model of
physiological neuron using artificial neural network [0.0]
2つの高速かつ1つの遅い変数を持つHodgkin-Huxley型システムを考える。
これら2つのシステムでは、そのダイナミクスを再現できる人工ニューラルネットワークを作成します。
ビスタブルモデルでは、トレーニング中に見ずに、あるソリューションのブランチでのみトレーニングされたネットワークが、別のネットワークを回復することを意味する。
論文 参考訳(メタデータ) (2022-03-26T19:04:19Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z) - Incremental Training of a Recurrent Neural Network Exploiting a
Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。
隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。
新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文 参考訳(メタデータ) (2020-06-29T08:35:49Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。