Fugu-MT 論文翻訳(概要): On the Design Space Between Transformers and Recursive Neural Nets

論文の概要: On the Design Space Between Transformers and Recursive Neural Nets

arxiv url: http://arxiv.org/abs/2409.01531v1
Date: Tue, 3 Sep 2024 02:03:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 03:21:06.694608
Title: On the Design Space Between Transformers and Recursive Neural Nets
Title（参考訳）: 変圧器と再帰型ニューラルネットの設計空間について
Authors: Jishnu Ray Chowdhury, Cornelia Caragea,
Abstract要約: 連続再帰型ニューラルネットワーク(CRvNN)とニューラルデータルータ(NDR)について検討した。 CRvNNは従来のRvNNの境界を押し上げ、その離散的な構造的な構成を緩和し、最終的にTransformerのような構造になる。 NDRはオリジナルのTransformerを制約し、より優れた構造的帰納バイアスを誘発し、CRvNNに近いモデルに終止符を打つ。
参考スコア（独自算出の注目度）: 64.862738244735
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we study two classes of models, Recursive Neural Networks (RvNNs) and Transformers, and show that a tight connection between them emerges from the recent development of two recent models - Continuous Recursive Neural Networks (CRvNN) and Neural Data Routers (NDR). On one hand, CRvNN pushes the boundaries of traditional RvNN, relaxing its discrete structure-wise composition and ends up with a Transformer-like structure. On the other hand, NDR constrains the original Transformer to induce better structural inductive bias, ending up with a model that is close to CRvNN. Both models, CRvNN and NDR, show strong performance in algorithmic tasks and generalization in which simpler forms of RvNNs and Transformers fail. We explore these "bridge" models in the design space between RvNNs and Transformers, formalize their tight connections, discuss their limitations, and propose ideas for future research.
Abstract（参考訳）: 本稿では,Recursive Neural Networks (RvNN) とTransformers (Transformers) の2種類のモデルについて検討し,最近の2つのモデル - Continuous Recursive Neural Networks (CRvNN) とNeural Data Routers (NDR) から,それらの間の密接な関係が現れることを示す。一方、CRvNNは従来のRvNNの境界を押して、その離散的な構造的な構成を緩和し、最終的にTransformerのような構造になる。一方、NDRはオリジナルのTransformerを制約し、より優れた構造的帰納バイアスを誘発し、CRvNNに近いモデルに終止符を打つ。 CRvNNとNDRはどちらも、より単純なRvNNとトランスフォーマーの形式が失敗するアルゴリズムタスクや一般化において強力な性能を示す。我々は、RvNNとTransformersの設計空間におけるこれらの"ブリッジ"モデルを探求し、密接な関係を定式化し、それらの制限について議論し、将来の研究のためのアイデアを提案する。

関連論文リスト

Were RNNs All We Needed? [55.822693848969855]
本研究では、リカレントニューラルネットワーク(RNN)に着目し、歴史的観点からのシーケンスモデリングを再考する。これらのモデルを簡単にすることで、従来のモデルよりも少ないパラメータを使用する最小バージョン(minLSTMとminGRU)を導出でき、トレーニング中に完全に並列化可能であり、トランスフォーマーを含む最近のモデルに対抗して、様々なタスクにおいて驚くほど競争力のあるパフォーマンスを達成することができることを実証した。
論文参考訳（メタデータ） (2024-10-02T03:06:49Z)
Recurrent Neural Networks for Still Images [0.0]
我々は、RNNが静止画をシーケンスとして解釈することで効果的に処理できることを論じる。本稿では、画像などの2次元入力に適した新しいRNN設計と、従来の実装よりもメモリ効率が高いBiDirectional RNN(BiRNN)のカスタムバージョンを紹介する。
論文参考訳（メタデータ） (2024-09-10T06:07:20Z)
Does Transformer Interpretability Transfer to RNNs? [0.6437284704257459]
近年のリカレントニューラルネットワークアーキテクチャの進歩により、RNNは等サイズトランスの性能に適合または超えることが可能になった。本稿では,RNNの圧縮状態を利用して,これらの手法のいくつかを改善することができることを示す。
論文参考訳（メタデータ） (2024-04-09T02:59:17Z)
Gated recurrent neural networks discover attention [9.113450161370361]
近年のアーキテクチャ開発により、リカレントニューラルネットワーク(RNN)がトランスフォーマーのパフォーマンスに到達し、さらに超えている。乗算ゲーティングによるフィードフォワード経路で相互接続された線形リカレント層を備えたRNNが,自己注意を実現する方法を示す。我々の研究は、ニューラルネットワークにおける乗法的相互作用の重要性を強調し、一部のRNNが予期せずその内部に注意を払っていることを示唆している。
論文参考訳（メタデータ） (2023-09-04T19:28:54Z)
RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文参考訳（メタデータ） (2023-05-22T13:57:41Z)
Tensor Networks Meet Neural Networks: A Survey and Future Perspectives [27.596881394688985]
テンソルニューラルネットワーク(TNN)とニューラルネットワーク(NN)は2つの基本的なデータモデリングアプローチである。 TNは指数的な数の次元を複雑さに変換することによって、大規模テンソルの次元性の呪いを解決する。 NNは、コンピュータビジョン、自然言語処理、ロボット工学の研究など、様々な応用において優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2023-01-22T17:35:56Z)
Spiking Neural Network Decision Feedback Equalization [70.3497683558609]
決定フィードバック等化器(DFE)に似たフィードバック構造を持つSNNベースの等化器を提案する。提案手法は,3種類の模範チャネルに対して,従来の線形等化器よりも明らかに優れていることを示す。決定フィードバック構造を持つSNNは、競合エネルギー効率の良いトランシーバへのパスを可能にする。
論文参考訳（メタデータ） (2022-11-09T09:19:15Z)
Exploiting Low-Rank Tensor-Train Deep Neural Networks Based on Riemannian Gradient Descent With Illustrations of Speech Processing [74.31472195046099]
我々は、低ランクテンソルトレイン深層ニューラルネットワーク(TT-DNN)を用いて、エンドツーエンドのディープラーニングパイプライン、すなわちLR-TT-DNNを構築する。 LR-TT-DNNと畳み込みニューラルネットワーク(CNN)を組み合わせたハイブリッドモデルを構築し、性能を向上する。我々の実証的な証拠は、モデルパラメータが少ないLR-TT-DNNとCNN+(LR-TT-DNN)モデルが、TT-DNNとCNN+(LR-TT-DNN)モデルよりも優れていることを示している。
論文参考訳（メタデータ） (2022-03-11T15:55:34Z)
A Battle of Network Structures: An Empirical Study of CNN, Transformer, and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文参考訳（メタデータ） (2021-08-30T06:09:02Z)
Modeling Hierarchical Structures with Continuous Recursive Neural Networks [33.74585832995141]
Recursive Neural Networks (RvNN)は、その基盤となる階層的構文構造に従ってシーケンスを構成する。従来のRvNNは、独自のプレーンテキストシーケンスで潜伏構造を誘導することができない。バックプロパゲーションフレンドリーな代替手段として,連続再帰ニューラルネットワーク(CRvNN)を提案する。
論文参考訳（メタデータ） (2021-06-10T20:42:05Z)
Convolutional Neural Networks with Gated Recurrent Connections [25.806036745901114]
リカレント畳み込みニューラルネットワーク(RCNN)は、動物の視覚系における豊富なリカレント接続にインスパイアされている。本稿では、繰り返し接続にゲートを導入することにより、ニューロンの受容野(RF)を変調することを提案する。 GRCNNは、オブジェクト認識、シーンテキスト認識、オブジェクト検出などのコンピュータビジョンタスクで評価された。
論文参考訳（メタデータ） (2021-06-05T10:14:59Z)
Binarizing MobileNet via Evolution-based Searching [66.94247681870125]
そこで本稿では,MobileNet をバイナライズする際の構築と訓練を容易にするための進化的探索手法を提案する。ワンショットアーキテクチャ検索フレームワークに着想を得て、グループ畳み込みのアイデアを操り、効率的な1ビット畳み込みニューラルネットワーク(CNN)を設計する。我々の目標は、グループ畳み込みの最良の候補を探索することで、小さなが効率的なバイナリニューラルアーキテクチャを考案することである。
論文参考訳（メタデータ） (2020-05-13T13:25:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。