論文の概要: Efficient Beam Tree Recursion
- arxiv url: http://arxiv.org/abs/2307.10779v2
- Date: Wed, 8 Nov 2023 04:09:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 19:24:35.752992
- Title: Efficient Beam Tree Recursion
- Title(参考訳): 効率的なビームツリー再帰
- Authors: Jishnu Ray Chowdhury, Cornelia Caragea
- Abstract要約: Beam Tree Recursive Neural Network (BT-RvNN) はGumbel Tree RvNNの単純な拡張として提案されている。
BT-RvNNのメモリ使用量を10-16ドルで削減する戦略を提案する。
- 参考スコア(独自算出の注目度): 76.62673276574668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Beam Tree Recursive Neural Network (BT-RvNN) was recently proposed as a
simple extension of Gumbel Tree RvNN and it was shown to achieve
state-of-the-art length generalization performance in ListOps while maintaining
comparable performance on other tasks. However, although not the worst in its
kind, BT-RvNN can be still exorbitantly expensive in memory usage. In this
paper, we identify the main bottleneck in BT-RvNN's memory usage to be the
entanglement of the scorer function and the recursive cell function. We propose
strategies to remove this bottleneck and further simplify its memory usage.
Overall, our strategies not only reduce the memory usage of BT-RvNN by
$10$-$16$ times but also create a new state-of-the-art in ListOps while
maintaining similar performance in other tasks. In addition, we also propose a
strategy to utilize the induced latent-tree node representations produced by
BT-RvNN to turn BT-RvNN from a sentence encoder of the form $f:\mathbb{R}^{n
\times d} \rightarrow \mathbb{R}^{d}$ into a sequence contextualizer of the
form $f:\mathbb{R}^{n \times d} \rightarrow \mathbb{R}^{n \times d}$. Thus, our
proposals not only open up a path for further scalability of RvNNs but also
standardize a way to use BT-RvNNs as another building block in the deep
learning toolkit that can be easily stacked or interfaced with other popular
models such as Transformers and Structured State Space models.
- Abstract(参考訳): Beam Tree Recursive Neural Network (BT-RvNN)は、最近、Gumbel Tree RvNNの単純な拡張として提案され、他のタスクで同等のパフォーマンスを維持しながら、ListOpsの最先端長一般化性能を達成することが示されている。
しかし、BT-RvNNは、その種類では最悪のものではないが、メモリ使用量では極端に高価である。
本稿では,BT-RvNNのメモリ使用量の主なボトルネックは,スコア機能と再帰的セル機能の絡み合いであることを示す。
我々は、このボトルネックを取り除き、メモリ使用をさらに単純化する戦略を提案する。
全体的に、BT-RvNNのメモリ使用量を10-16ドル倍に削減するだけでなく、他のタスクでも同様のパフォーマンスを維持しながら、ListOpsに新たな最先端技術を作成します。
さらに、bt-rvnnが生成する遅延木ノード表現を用いて、$f:\mathbb{r}^{n \times d} \rightarrow \mathbb{r}^{d}$を$f:\mathbb{r}^{n \times d} \rightarrow \mathbb{r}^{n \times d} \rightarrow \mathbb{r}^{n \times d}$という形の文エンコーダからbt-rvnnを変換する方法も提案する。
したがって、我々の提案はRvNNのさらなる拡張のための道を開くだけでなく、TransformersやStructured State Spaceモデルといった他の一般的なモデルと簡単に積み重ねたりインターフェースしたりできるディープラーニングツールキットの別のビルディングブロックとしてBT-RvNNを使用する方法を標準化する。
関連論文リスト
- Topology-aware Embedding Memory for Continual Learning on Expanding
Networks [69.21427519408016]
メモリリプレイ技術は、漸進的に蓄積されたユークリッドデータによる継続的な学習において大きな成功を収めている。
しかし、ネットワークの継続的な拡張にそれらを直接適用することは、潜在的なメモリ爆発問題につながる。
我々は、トポロジ-埋め込みメモリ(TEM)を備えた一般フレームワーク、すなわちTEMaware Decoupled Graph Neural Networks(PDGNN)を提案する。
本稿では,TEMを用いたTEMaware PDGNNが最先端技術,特に難易度の高いクラスインクリメンタルセッティングにおいて著しく優れていることを示す。
論文 参考訳(メタデータ) (2024-01-24T03:03:17Z) - Recursion in Recursion: Two-Level Nested Recursion for Length
Generalization with Scalability [76.62673276574668]
バイナリバランスツリーRvNN(BBT-RvNNs)は、バランスの取れたバイナリツリー構造に従ってシーケンス合成を実行する。
BBT-RvNNはLong Range Arena (LRA)のようなロングシーケンスタスクにおいて効率的かつスケーラブルである
リストOpsで成功するRvNN(例:ビームツリーRvNN)は、一般的にRNNよりも数倍高い。
論文 参考訳(メタデータ) (2023-11-08T04:20:56Z) - Towards Zero Memory Footprint Spiking Neural Network Training [7.4331790419913455]
スパイキングニューラルネットワーク(SNN)は、連続値ではなくスパイクと呼ばれる離散時間イベントを使用して情報を処理する。
本稿では,メモリフットプリントが著しく低いことを特徴とする,革新的なフレームワークを提案する。
我々の設計では、現在のSNNノードと比較してメモリ使用量の削減を$mathbf58.65times$で達成できる。
論文 参考訳(メタデータ) (2023-08-16T19:49:24Z) - Beam Tree Recursive Cells [54.958581892688095]
本稿では,遅延構造誘導のためのビームサーチによる再帰ニューラルネットワーク(RvNN)の拡張を目的としたビームツリー再帰セル(BT-Cell)を提案する。
提案したモデルは, 合成データと実データの両方において, 異なる分配分割で評価する。
論文 参考訳(メタデータ) (2023-05-31T16:20:04Z) - Recurrent Bilinear Optimization for Binary Neural Networks [58.972212365275595]
BNNは、実数値重みとスケールファクターの内在的双線型関係を無視している。
私たちの仕事は、双線形の観点からBNNを最適化する最初の試みです。
我々は、様々なモデルやデータセット上で最先端のBNNに対して印象的な性能を示す頑健なRBONNを得る。
論文 参考訳(メタデータ) (2022-09-04T06:45:33Z) - Pruned RNN-T for fast, memory-efficient ASR training [20.646465940322763]
音声認識のためのRNN-Transducer (RNN-T) フレームワークが人気を博している。
RNN-Tの欠点の1つは、損失関数の計算が比較的遅く、多くのメモリを使用することができることである。
本稿では,より高速でメモリ効率のよいRNN-T損失計算手法を提案する。
論文 参考訳(メタデータ) (2022-06-23T12:18:03Z) - FTBNN: Rethinking Non-linearity for 1-bit CNNs and Going Beyond [23.5996182207431]
本稿では,二項化畳み込み過程が,その誤差を最小限に抑えるために線形性を増大させ,BNNの識別能力を損なうことを示す。
我々は、その矛盾を修正するために、適切な非線形モジュールを再検討し、調整することで、最先端のパフォーマンスを実現する強力なベースラインに繋がる。
論文 参考訳(メタデータ) (2020-10-19T08:11:48Z) - RNN Training along Locally Optimal Trajectories via Frank-Wolfe
Algorithm [50.76576946099215]
小領域の損失面に局所的なミニマを反復的に求めることにより,RNNの新規かつ効率的なトレーニング手法を提案する。
新たなRNNトレーニング手法を開発し,追加コストを伴っても,全体のトレーニングコストがバックプロパゲーションよりも低いことを実証的に観察した。
論文 参考訳(メタデータ) (2020-10-12T01:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。