論文の概要: Recursion in Recursion: Two-Level Nested Recursion for Length
Generalization with Scalability
- arxiv url: http://arxiv.org/abs/2311.04449v1
- Date: Wed, 8 Nov 2023 04:20:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 17:02:08.473457
- Title: Recursion in Recursion: Two-Level Nested Recursion for Length
Generalization with Scalability
- Title(参考訳): 再帰的再帰:拡張性を備えた長さ一般化のための2レベルネスト再帰
- Authors: Jishnu Ray Chowdhury, Cornelia Caragea
- Abstract要約: バイナリバランスツリーRvNN(BBT-RvNNs)は、バランスの取れたバイナリツリー構造に従ってシーケンス合成を実行する。
BBT-RvNNはLong Range Arena (LRA)のようなロングシーケンスタスクにおいて効率的かつスケーラブルである
リストOpsで成功するRvNN(例:ビームツリーRvNN)は、一般的にRNNよりも数倍高い。
- 参考スコア(独自算出の注目度): 76.62673276574668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Binary Balanced Tree RvNNs (BBT-RvNNs) enforce sequence composition according
to a preset balanced binary tree structure. Thus, their non-linear recursion
depth is just $\log_2 n$ ($n$ being the sequence length). Such logarithmic
scaling makes BBT-RvNNs efficient and scalable on long sequence tasks such as
Long Range Arena (LRA). However, such computational efficiency comes at a cost
because BBT-RvNNs cannot solve simple arithmetic tasks like ListOps. On the
flip side, RvNNs (e.g., Beam Tree RvNN) that do succeed on ListOps (and other
structure-sensitive tasks like formal logical inference) are generally several
times more expensive than even RNNs. In this paper, we introduce a novel
framework -- Recursion in Recursion (RIR) to strike a balance between the two
sides - getting some of the benefits from both worlds. In RIR, we use a form of
two-level nested recursion - where the outer recursion is a $k$-ary balanced
tree model with another recursive model (inner recursion) implementing its cell
function. For the inner recursion, we choose Beam Tree RvNNs (BT-RvNN). To
adjust BT-RvNNs within RIR we also propose a novel strategy of beam alignment.
Overall, this entails that the total recursive depth in RIR is upper-bounded by
$k \log_k n$. Our best RIR-based model is the first model that demonstrates
high ($\geq 90\%$) length-generalization performance on ListOps while at the
same time being scalable enough to be trainable on long sequence inputs from
LRA. Moreover, in terms of accuracy in the LRA language tasks, it performs
competitively with Structured State Space Models (SSMs) without any special
initialization - outperforming Transformers by a large margin. On the other
hand, while SSMs can marginally outperform RIR on LRA, they (SSMs) fail to
length-generalize on ListOps. Our code is available at:
\url{https://github.com/JRC1995/BeamRecursionFamily/}.
- Abstract(参考訳): バイナリバランス木RvNN(BBT-RvNN)は、予め設定されたバランス木構造に従ってシーケンス構成を実行する。
したがって、それらの非線形再帰深さは$\log_2 n$ (n$ はシーケンス長) である。
このような対数スケーリングにより、BBT-RvNNはLong Range Arena (LRA)のような長いシーケンスタスクにおいて効率的かつスケーラブルになる。
しかし、BBT-RvNNはListOpsのような単純な算術的なタスクを解くことができないため、そのような計算効率はコストがかかる。
一方、ListOps(および形式論理推論のような構造に敏感なタスク)で成功するRvNN(例:ビームツリーRvNN)は、一般的にRNNよりも数倍高い。
本稿では,両者のバランスを取るために,再帰的再帰(recursion in recursion, rir)という新しい枠組みを提案する。
RIRでは、外部再帰は$k$aryのバランス木モデルであり、別の再帰モデル(インナー再帰)はそのセル関数を実装している。
内部再帰について、ビームツリーRvNN(BT-RvNN)を選択する。
RIR内でBT-RvNNを調整するために、ビームアライメントの新しい戦略を提案する。
全体として、RIR の総再帰深さは $k \log_k n$ で上界となる。
我々の最良のRIRベースのモデルは、LRAからの長いシーケンス入力でトレーニングできるほどスケーラブルであると同時に、ListOps上での高(\geq 90\%$)長一般化性能を示す最初のモデルです。
さらに、lra言語タスクの正確性の観点からは、特別な初期化なしに構造化状態空間モデル(ssm)と競合して、大きなマージンでトランスフォーマーを上回っている。
一方、SSMはLRAではRIRをわずかに上回りますが、ListOpsでは(SSMは)長大に一般化できません。
私たちのコードは、 \url{https://github.com/jrc1995/beamrecursionfamily/} で利用可能です。
関連論文リスト
- PRF: Parallel Resonate and Fire Neuron for Long Sequence Learning in Spiking Neural Networks [6.545474731089018]
スパイキングニューラルネットワーク(SNN)における長周期学習の効率性と性能の課題を同時に解決する。
まず,典型的なLeaky Integrate-and-Fire(LIF)モデルのトレーニング時間を$O(L2)$から$O(Llog L)$に短縮する。
第二に、長距離依存性を捉えるために、複素領域における微分可能リセット関数から共振機構によって駆動される振動膜電位を利用するパラレル共鳴・火災ニューロン(PRF)を提案する。
論文 参考訳(メタデータ) (2024-10-04T15:51:56Z) - Were RNNs All We Needed? [53.393497486332]
従来のリカレントニューラルネットワーク(RNN)を10年以上前から再検討しています。
入力から隠れた状態依存を取り除くことで、LSTMやGRUはBPTTを必要とせず、並列で効率的に訓練できることを示す。
論文 参考訳(メタデータ) (2024-10-02T03:06:49Z) - Efficient Beam Tree Recursion [76.62673276574668]
Beam Tree Recursive Neural Network (BT-RvNN) はGumbel Tree RvNNの単純な拡張として提案されている。
BT-RvNNのメモリ使用量を10-16ドルで削減する戦略を提案する。
論文 参考訳(メタデータ) (2023-07-20T11:29:17Z) - Beam Tree Recursive Cells [54.958581892688095]
本稿では,遅延構造誘導のためのビームサーチによる再帰ニューラルネットワーク(RvNN)の拡張を目的としたビームツリー再帰セル(BT-Cell)を提案する。
提案したモデルは, 合成データと実データの両方において, 異なる分配分割で評価する。
論文 参考訳(メタデータ) (2023-05-31T16:20:04Z) - SKI to go Faster: Accelerating Toeplitz Neural Networks via Asymmetric
Kernels [69.47358238222586]
Toeplitz Neural Networks (TNN) は、印象的な結果を持つ最近のシーケンスモデルである。
我々は, O(n) 計算複雑性と O(n) 相対位置エンコーダ (RPE) 多層パーセプトロン (MLP) と減衰バイアスコールの低減を目指す。
双方向モデルの場合、これはスパースと低ランクのToeplitz行列分解を動機付ける。
論文 参考訳(メタデータ) (2023-05-15T21:25:35Z) - Simplifying and Understanding State Space Models with Diagonal Linear
RNNs [56.33053691749856]
本研究は、離散化ステップを解消し、バニラ対角線形RNNに基づくモデルを提案する。
概念的にはるかに単純であるにもかかわらず、$mathrmDLR$は以前提案したSSMと同じくらいのパフォーマンスを示す。
また、合成シーケンス・ツー・シーケンス・タスクのスイートによって、SSMとアテンションベースモデルの表現性も特徴付ける。
論文 参考訳(メタデータ) (2022-12-01T18:53:06Z) - Pruned RNN-T for fast, memory-efficient ASR training [20.646465940322763]
音声認識のためのRNN-Transducer (RNN-T) フレームワークが人気を博している。
RNN-Tの欠点の1つは、損失関数の計算が比較的遅く、多くのメモリを使用することができることである。
本稿では,より高速でメモリ効率のよいRNN-T損失計算手法を提案する。
論文 参考訳(メタデータ) (2022-06-23T12:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。