論文の概要: Stability Analysis of Various Symbolic Rule Extraction Methods from
Recurrent Neural Network
- arxiv url: http://arxiv.org/abs/2402.02627v1
- Date: Sun, 4 Feb 2024 22:16:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 18:38:55.467624
- Title: Stability Analysis of Various Symbolic Rule Extraction Methods from
Recurrent Neural Network
- Title(参考訳): リカレントニューラルネットワークからの様々な記号規則抽出法の安定性解析
- Authors: Neisarg Dave, Daniel Kifer, C. Lee Giles, Ankur Mali
- Abstract要約: 3600ドルのRNNモデルをトレーニングし、量子化アプローチ(k-meansとSOM)で18000ドルのDFAを抽出しました。
7ドルのTomitaと4ドルのDyck文法のデータセットをサンプリングし、LSTM、GRU、O2RNN、MIRNNという4ドルのRNNセルでトレーニングしました。
実験から得られた観測により,O2RNNの優れた性能と量子化に基づくルール抽出が他よりも優れていることが確認された。
- 参考スコア(独自算出の注目度): 18.45008700664409
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper analyzes two competing rule extraction methodologies: quantization
and equivalence query. We trained $3600$ RNN models, extracting $18000$ DFA
with a quantization approach (k-means and SOM) and $3600$ DFA by equivalence
query($L^{*}$) methods across $10$ initialization seeds. We sampled the
datasets from $7$ Tomita and $4$ Dyck grammars and trained them on $4$ RNN
cells: LSTM, GRU, O2RNN, and MIRNN. The observations from our experiments
establish the superior performance of O2RNN and quantization-based rule
extraction over others. $L^{*}$, primarily proposed for regular grammars,
performs similarly to quantization methods for Tomita languages when neural
networks are perfectly trained. However, for partially trained RNNs, $L^{*}$
shows instability in the number of states in DFA, e.g., for Tomita 5 and Tomita
6 languages, $L^{*}$ produced more than $100$ states. In contrast, quantization
methods result in rules with number of states very close to ground truth DFA.
Among RNN cells, O2RNN produces stable DFA consistently compared to other
cells. For Dyck Languages, we observe that although GRU outperforms other RNNs
in network performance, the DFA extracted by O2RNN has higher performance and
better stability. The stability is computed as the standard deviation of
accuracy on test sets on networks trained across $10$ seeds. On Dyck Languages,
quantization methods outperformed $L^{*}$ with better stability in accuracy and
the number of states. $L^{*}$ often showed instability in accuracy in the order
of $16\% - 22\%$ for GRU and MIRNN while deviation for quantization methods
varied in $5\% - 15\%$. In many instances with LSTM and GRU, DFA's extracted by
$L^{*}$ even failed to beat chance accuracy ($50\%$), while those extracted by
quantization method had standard deviation in the $7\%-17\%$ range. For O2RNN,
both rule extraction methods had deviation in the $0.5\% - 3\%$ range.
- Abstract(参考訳): 本稿では,競合する2つの規則抽出手法,量子化と等価クエリを分析する。
私たちは3600ドルのRNNモデルをトレーニングし、量子化アプローチ(k-meansとSOM)で18000ドルのDFAと、10ドルの初期化シードに対して等価クエリ($L^{*}$)メソッドで3600ドルのDFAを抽出しました。
7ドルのTomitaと4ドルのDick文法のデータセットをサンプリングし、LSTM、GRU、O2RNN、MIRNNという4ドルのRNNセルでトレーニングしました。
実験結果から,O2RNNと量子化に基づくルール抽出の優れた性能が得られた。
主に正規文法のために提案された$l^{*}$は、ニューラルネットワークが完全に訓練されたとき、トミタ言語の量子化法と同様に実行される。
しかし、部分的に訓練されたrnnでは、$l^{*}$ はdfaの州数に不安定を示し、例えば tomita 5 と tomita 6 の言語では$l^{*}$ は100ドル以上の州を生産している。
対照的に、量子化法は基底真理 DFA に非常に近い状態の数で規則をもたらす。
RNN細胞のうち、O2RNNは他の細胞と比べて安定なDFAを産生する。
ディック言語の場合、GRUはネットワーク性能において他のRNNよりも優れているが、O2RNNによって抽出されたDFAはより高い性能と安定性を有する。
この安定性は、10ドルのシードで訓練されたネットワーク上のテストセットの標準偏差として計算される。
Dyck Languagesでは、量子化法が$L^{*}$よりも高い精度と状態数で高い安定性を示した。
L^{*}$はしばしば、GRUとMIRNNの$16\% - 22\%$の順で精度の不安定さを示し、量子化メソッドの偏差は5\% - 15\%$で変化した。
LSTMとGRUの多くのケースでは、DFAが$L^{*}$で抽出された値が確率精度(50\%$)を達成できなかったのに対して、量子化法で抽出された値が7\%-17\%$の範囲で標準偏差を持っていた。
O2RNNの場合、両方のルール抽出法は0.5 % - 3 %$の範囲で偏差があった。
関連論文リスト
- Fixed Points of Deep Neural Networks: Emergence, Stability, and Applications [0.0]
我々はディープニューラルネットワーク(DNN)の固定点群の形成と安定性について述べる。
本稿では、教師付き、半教師付き、教師なし学習におけるそのようなネットワークの応用例を示す。
論文 参考訳(メタデータ) (2025-01-07T23:23:26Z) - Learning Networks from Wide-Sense Stationary Stochastic Processes [7.59499154221528]
ここでの重要な推論問題は、ノード出力(ポテンシャル)からエッジ接続を学習することである。
我々はWhittleの最大可能性推定器(MLE)を用いて時間相関サンプルから$Last$のサポートを学習する。
MLE問題は厳密な凸であり、ユニークな解であることを示す。
論文 参考訳(メタデータ) (2024-12-04T23:14:00Z) - Efficient k-Nearest-Neighbor Machine Translation with Dynamic Retrieval [49.825549809652436]
$k$NN-MTはドメイン固有の翻訳知識を保持するために外部データストアを構築する。
適応検索(k$NN-MT-AR)は、$lambda$を動的に推定し、$lambda$が固定しきい値以下であれば$k$NN検索をスキップする。
本稿では,バニラ$k$NN-MTを大幅に拡張した動的検索(k$NN-MT-DR)を提案する。
論文 参考訳(メタデータ) (2024-06-10T07:36:55Z) - On the Computational Complexity and Formal Hierarchy of Second Order
Recurrent Neural Networks [59.85314067235965]
2次次リカレントネットワーク(RNN)の理論基盤を拡大する(2次RNN)
有界時間でチューリング完備な RNN のクラスが存在することを証明している。
また、記憶のない2ドルのRNNは、バニラRNNのような現代のモデルよりも優れており、正規文法の認識において繰り返し単位をゲートしていることを示す。
論文 参考訳(メタデータ) (2023-09-26T06:06:47Z) - Extending the Design Space of Graph Neural Networks by Rethinking
Folklore Weisfeiler-Lehman [66.23316415757456]
近年、グラフニューラルネットワーク(GNN)の最も人気のあるフレームワークとして、メッセージパッシングニューラルネットワーク(MPNN)が登場している。
しかし、その表現力は1次元のWeisfeiler-Lehman (1-WL) テストによって制限される。
我々は、任意の同変集合をすべてのノードの代わりに隣人と考える拡張、$(k,t)$-FWLを提案する。
N$2-GNN は ZINC-Subset (0.059) で記録破りの結果を達成し、以前の SOTA の成績を 10.6% 上回った。
論文 参考訳(メタデータ) (2023-06-05T21:35:32Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z) - Improve the Robustness and Accuracy of Deep Neural Network with
$L_{2,\infty}$ Normalization [0.0]
ディープニューラルネットワーク(DNN)の堅牢性と精度は、$L_2,infty$正規化を導入することで向上した。
L_2,infty$正規化は、DNN関数のポリヘドロングラフの隣接する2つの面の間の大きな二面角をもたらすことが証明されている。
論文 参考訳(メタデータ) (2020-10-10T05:45:45Z) - Approximating smooth functions by deep neural networks with sigmoid
activation function [0.0]
我々は,シグモイド活性化機能を持つディープニューラルネットワーク(DNN)のパワーについて検討した。
固定深度と幅が$Md$で近似レートが$M-2p$であることを示す。
論文 参考訳(メタデータ) (2020-10-08T07:29:31Z) - Shuffling Recurrent Neural Networks [97.72614340294547]
隠れ状態 $h_t$ を以前の隠れ状態 $h_t-1$ のベクトル要素を置換することにより、隠れ状態 $h_t$ が得られる新しいリカレントニューラルネットワークモデルを提案する。
私たちのモデルでは、予測は第2の学習関数によって与えられ、隠された状態 $s(h_t)$ に適用されます。
論文 参考訳(メタデータ) (2020-07-14T19:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。