論文の概要: A Formal Hierarchy of RNN Architectures
- arxiv url: http://arxiv.org/abs/2004.08500v4
- Date: Sat, 19 Sep 2020 23:03:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 05:45:43.863983
- Title: A Formal Hierarchy of RNN Architectures
- Title(参考訳): RNNアーキテクチャの形式的階層
- Authors: William Merrill and Gail Weiss and Yoav Goldberg and Roy Schwartz and
Noah A. Smith and Eran Yahav
- Abstract要約: 階層構造は、RNNのメモリを測定する空間と、リカレント更新が重み付けされた有限状態マシンで記述できるかどうかという有理再帰という2つの形式的特性に基づいている。
これらのモデルの表現能力は、複数の層を積み重ねたり、異なるプール機能で構成することでどのように拡張されるかを示す。
我々は、不飽和RNNの実用的な学習能力は、同様の階層に従うと仮定する。
- 参考スコア(独自算出の注目度): 88.38859874233944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop a formal hierarchy of the expressive capacity of RNN
architectures. The hierarchy is based on two formal properties: space
complexity, which measures the RNN's memory, and rational recurrence, defined
as whether the recurrent update can be described by a weighted finite-state
machine. We place several RNN variants within this hierarchy. For example, we
prove the LSTM is not rational, which formally separates it from the related
QRNN (Bradbury et al., 2016). We also show how these models' expressive
capacity is expanded by stacking multiple layers or composing them with
different pooling functions. Our results build on the theory of "saturated"
RNNs (Merrill, 2019). While formally extending these findings to unsaturated
RNNs is left to future work, we hypothesize that the practical learnable
capacity of unsaturated RNNs obeys a similar hierarchy. Experimental findings
from training unsaturated networks on formal languages support this conjecture.
- Abstract(参考訳): 我々は,RNNアーキテクチャの表現能力の形式的階層を構築した。
階層構造は、RNNのメモリを測定する空間複雑性と、リカレント更新が重み付けされた有限状態マシンで記述できるかどうかという有理再帰という2つの形式的特性に基づいている。
我々はこの階層内にいくつかのRNN変種を配置する。
例えば、LSTMが合理的でないことを証明し、関連するQRNNと正式に分離する(Bradbury et al., 2016)。
また,複数のレイヤを積み重ねたり,異なるプール関数で構成することで,これらのモデルの表現能力を拡張する方法を示す。
この結果は, 飽和RNNの理論に基づくものである(Merrill, 2019)。
これらの発見を公式に不飽和RNNに拡張することは今後の研究に委ねられるが、不飽和RNNの実用的な学習能力は、同様の階層に従うと仮定する。
形式言語における不飽和ネットワークのトレーニングによる実験的発見はこの予想を支持している。
関連論文リスト
- Extensional Properties of Recurrent Neural Networks [49.30491917300904]
リカレントニューラルネットワーク(RNN)の特性は、RNNアルゴリズムの特性ではなく、RNNによって計算される関数の性質である場合、エンフェクテンシャル(enmphextensional)と呼ばれる。
RNNの任意の非自明な拡張性は決定不能である。
論文 参考訳(メタデータ) (2024-10-30T06:29:02Z) - A Tensor Decomposition Perspective on Second-order RNNs [5.922280687190788]
CPRNNと呼ばれるCP分解を用いた2RNNのパラメータ化モデルについて検討する。
ランクと隠れサイズがモデルキャパシティに与える影響を分析し、これらのパラメータに基づいてRNN, 2RNN, MIRNN, CPRNN間の関係を示す。
これらの結果はPenn Treebankデータセットの実験によって実証的に支援され、固定パラメータ予算により、CPRNNは、RNN、2RNN、MIRNNよりも、適切なランクと隠されたサイズで優れていることを示す。
論文 参考訳(メタデータ) (2024-06-07T16:18:32Z) - On Efficiently Representing Regular Languages as RNNs [49.88310438099143]
RNNは、人間の言語で広く使われている有界階層構造を効率的に表現できることを示す。
これは、RNNの成功が階層をモデル化する能力と結びついていることを示唆している。
我々は,RNNが従来主張していたより大規模なLMを効率的に表現できることを示す。
論文 参考訳(メタデータ) (2024-02-24T13:42:06Z) - Recurrent Neural Language Models as Probabilistic Finite-state Automata [66.23172872811594]
RNN LMが表現できる確率分布のクラスについて検討する。
単純なRNNは確率的有限状態オートマトンの部分クラスと同値であることを示す。
これらの結果は、RNN LMが表現できる分布のクラスを特徴付けるための第一歩を示す。
論文 参考訳(メタデータ) (2023-10-08T13:36:05Z) - On the Computational Complexity and Formal Hierarchy of Second Order
Recurrent Neural Networks [59.85314067235965]
2次次リカレントネットワーク(RNN)の理論基盤を拡大する(2次RNN)
有界時間でチューリング完備な RNN のクラスが存在することを証明している。
また、記憶のない2ドルのRNNは、バニラRNNのような現代のモデルよりも優れており、正規文法の認識において繰り返し単位をゲートしていることを示す。
論文 参考訳(メタデータ) (2023-09-26T06:06:47Z) - Learning Transductions and Alignments with RNN Seq2seq Models [0.8158530638728501]
本研究では,4つのトランスダクションタスクの学習において,Recurrent-Neural-Network sequence to sequence (RNN seq2seq)モデルの有効性について検討する。
RNN seq2seqモデルは、基礎となる関数を学習するのではなく、トレーニングデータや配信データに適合するマッピングを近似することができる。
論文 参考訳(メタデータ) (2023-03-13T04:15:33Z) - Decomposing a Recurrent Neural Network into Modules for Enabling
Reusability and Replacement [11.591247347259317]
RNNをモジュールに分解する最初の手法を提案する。
我々は,Vanilla,LSTM,GRUなど,さまざまな種類のRNNを研究している。
本稿では,RNNモジュールを再利用し,様々なシナリオで置き換える方法について述べる。
論文 参考訳(メタデータ) (2022-12-09T03:29:38Z) - Architecture Disentanglement for Deep Neural Networks [174.16176919145377]
ディープニューラルネットワーク(DNN)の内部動作を説明するために,ニューラルアーキテクチャ・ディコンタングルメント(NAD)を導入する。
NADは、訓練済みのDNNを独立したタスクに従ってサブアーキテクチャに切り離すことを学び、推論プロセスを記述する情報フローを形成する。
その結果、誤分類された画像は、タスクサブアーキテクチャーに正しいサブアーキテクチャーに割り当てられる確率が高いことが示された。
論文 参考訳(メタデータ) (2020-03-30T08:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。