論文の概要: On the Design Space Between Transformers and Recursive Neural Nets
- arxiv url: http://arxiv.org/abs/2409.01531v1
- Date: Tue, 3 Sep 2024 02:03:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 03:21:06.694608
- Title: On the Design Space Between Transformers and Recursive Neural Nets
- Title(参考訳): 変圧器と再帰型ニューラルネットの設計空間について
- Authors: Jishnu Ray Chowdhury, Cornelia Caragea,
- Abstract要約: 連続再帰型ニューラルネットワーク(CRvNN)とニューラルデータルータ(NDR)について検討した。
CRvNNは従来のRvNNの境界を押し上げ、その離散的な構造的な構成を緩和し、最終的にTransformerのような構造になる。
NDRはオリジナルのTransformerを制約し、より優れた構造的帰納バイアスを誘発し、CRvNNに近いモデルに終止符を打つ。
- 参考スコア(独自算出の注目度): 64.862738244735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study two classes of models, Recursive Neural Networks (RvNNs) and Transformers, and show that a tight connection between them emerges from the recent development of two recent models - Continuous Recursive Neural Networks (CRvNN) and Neural Data Routers (NDR). On one hand, CRvNN pushes the boundaries of traditional RvNN, relaxing its discrete structure-wise composition and ends up with a Transformer-like structure. On the other hand, NDR constrains the original Transformer to induce better structural inductive bias, ending up with a model that is close to CRvNN. Both models, CRvNN and NDR, show strong performance in algorithmic tasks and generalization in which simpler forms of RvNNs and Transformers fail. We explore these "bridge" models in the design space between RvNNs and Transformers, formalize their tight connections, discuss their limitations, and propose ideas for future research.
- Abstract(参考訳): 本稿では,Recursive Neural Networks (RvNN) とTransformers (Transformers) の2種類のモデルについて検討し,最近の2つのモデル - Continuous Recursive Neural Networks (CRvNN) とNeural Data Routers (NDR) から,それらの間の密接な関係が現れることを示す。
一方、CRvNNは従来のRvNNの境界を押して、その離散的な構造的な構成を緩和し、最終的にTransformerのような構造になる。
一方、NDRはオリジナルのTransformerを制約し、より優れた構造的帰納バイアスを誘発し、CRvNNに近いモデルに終止符を打つ。
CRvNNとNDRはどちらも、より単純なRvNNとトランスフォーマーの形式が失敗するアルゴリズムタスクや一般化において強力な性能を示す。
我々は、RvNNとTransformersの設計空間におけるこれらの"ブリッジ"モデルを探求し、密接な関係を定式化し、それらの制限について議論し、将来の研究のためのアイデアを提案する。
関連論文リスト
- Does Transformer Interpretability Transfer to RNNs? [0.6437284704257459]
近年のリカレントニューラルネットワークアーキテクチャの進歩により、RNNは等サイズトランスの性能に適合または超えることが可能になった。
本稿では,RNNの圧縮状態を利用して,これらの手法のいくつかを改善することができることを示す。
論文 参考訳(メタデータ) (2024-04-09T02:59:17Z) - SDiT: Spiking Diffusion Model with Transformer [1.7630597106970465]
スパイキングニューラルネットワーク(SNN)は消費電力が低く、生物解釈可能な特性を持つ。
我々は、主流拡散モデルにおいてよく使われるU-net構造を置き換えるためにトランスフォーマーを利用する。
比較的低い計算コストと短いサンプリング時間で高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2024-02-18T13:42:11Z) - Gated recurrent neural networks discover attention [9.113450161370361]
近年のアーキテクチャ開発により、リカレントニューラルネットワーク(RNN)がトランスフォーマーのパフォーマンスに到達し、さらに超えている。
乗算ゲーティングによるフィードフォワード経路で相互接続された線形リカレント層を備えたRNNが,自己注意を実現する方法を示す。
我々の研究は、ニューラルネットワークにおける乗法的相互作用の重要性を強調し、一部のRNNが予期せずその内部に注意を払っていることを示唆している。
論文 参考訳(メタデータ) (2023-09-04T19:28:54Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Spiking Neural Network Decision Feedback Equalization [70.3497683558609]
決定フィードバック等化器(DFE)に似たフィードバック構造を持つSNNベースの等化器を提案する。
提案手法は,3種類の模範チャネルに対して,従来の線形等化器よりも明らかに優れていることを示す。
決定フィードバック構造を持つSNNは、競合エネルギー効率の良いトランシーバへのパスを可能にする。
論文 参考訳(メタデータ) (2022-11-09T09:19:15Z) - Exploiting Low-Rank Tensor-Train Deep Neural Networks Based on
Riemannian Gradient Descent With Illustrations of Speech Processing [74.31472195046099]
我々は、低ランクテンソルトレイン深層ニューラルネットワーク(TT-DNN)を用いて、エンドツーエンドのディープラーニングパイプライン、すなわちLR-TT-DNNを構築する。
LR-TT-DNNと畳み込みニューラルネットワーク(CNN)を組み合わせたハイブリッドモデルを構築し、性能を向上する。
我々の実証的な証拠は、モデルパラメータが少ないLR-TT-DNNとCNN+(LR-TT-DNN)モデルが、TT-DNNとCNN+(LR-TT-DNN)モデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-03-11T15:55:34Z) - A Battle of Network Structures: An Empirical Study of CNN, Transformer,
and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。
トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。
本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文 参考訳(メタデータ) (2021-08-30T06:09:02Z) - Modeling Hierarchical Structures with Continuous Recursive Neural
Networks [33.74585832995141]
Recursive Neural Networks (RvNN)は、その基盤となる階層的構文構造に従ってシーケンスを構成する。
従来のRvNNは、独自のプレーンテキストシーケンスで潜伏構造を誘導することができない。
バックプロパゲーションフレンドリーな代替手段として,連続再帰ニューラルネットワーク(CRvNN)を提案する。
論文 参考訳(メタデータ) (2021-06-10T20:42:05Z) - Convolutional Neural Networks with Gated Recurrent Connections [25.806036745901114]
リカレント畳み込みニューラルネットワーク(RCNN)は、動物の視覚系における豊富なリカレント接続にインスパイアされている。
本稿では、繰り返し接続にゲートを導入することにより、ニューロンの受容野(RF)を変調することを提案する。
GRCNNは、オブジェクト認識、シーンテキスト認識、オブジェクト検出などのコンピュータビジョンタスクで評価された。
論文 参考訳(メタデータ) (2021-06-05T10:14:59Z) - Binarizing MobileNet via Evolution-based Searching [66.94247681870125]
そこで本稿では,MobileNet をバイナライズする際の構築と訓練を容易にするための進化的探索手法を提案する。
ワンショットアーキテクチャ検索フレームワークに着想を得て、グループ畳み込みのアイデアを操り、効率的な1ビット畳み込みニューラルネットワーク(CNN)を設計する。
我々の目標は、グループ畳み込みの最良の候補を探索することで、小さなが効率的なバイナリニューラルアーキテクチャを考案することである。
論文 参考訳(メタデータ) (2020-05-13T13:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。