論文の概要: HGRN2: Gated Linear RNNs with State Expansion
- arxiv url: http://arxiv.org/abs/2404.07904v1
- Date: Thu, 11 Apr 2024 16:43:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 13:11:00.092520
- Title: HGRN2: Gated Linear RNNs with State Expansion
- Title(参考訳): HGRN2: 状態拡張を備えたGated Linear RNN
- Authors: Zhen Qin, Songlin Yang, Weixuan Sun, Xuyang Shen, Dong Li, Weigao Sun, Yiran Zhong,
- Abstract要約: 階層線形RNN(HGRN)は、効率的な推論を提供しながら、言語モデリングにおける競争的トレーニング速度と性能を実証している。
本稿では, 新たなパラメータを導入することなく, 再帰状態サイズを著しく拡大することのできる, 簡易な外部生成物ベース状態拡張機構を提案する。
本研究では,言語モデリング,画像分類,長距離アリーナにおけるHGRN2のHGRN1に対する優位性を検証した。
- 参考スコア(独自算出の注目度): 30.701635868842814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchically gated linear RNN (HGRN,Qin et al. 2023) has demonstrated competitive training speed and performance in language modeling, while offering efficient inference. However, the recurrent state size of HGRN remains relatively small, which limits its expressiveness.To address this issue, inspired by linear attention, we introduce a simple outer-product-based state expansion mechanism so that the recurrent state size can be significantly enlarged without introducing any additional parameters. The linear attention form also allows for hardware-efficient training.Our extensive experiments verify the advantage of HGRN2 over HGRN1 in language modeling, image classification, and Long Range Arena.Our largest 3B HGRN2 model slightly outperforms Mamba and LLaMa Architecture Transformer for language modeling in a controlled experiment setting; and performs competitively with many open-source 3B models in downstream evaluation while using much fewer total training tokens.
- Abstract(参考訳): 階層化された線形RNN(HGRN,Qin,al 2023)は、効率的な推論を提供しながら、言語モデリングにおける競争的なトレーニング速度と性能を実証している。
しかし、HGRNの繰り返し状態サイズは比較的小さく、その表現性を制限しているため、線形的注意から着想を得たこの問題に対処するために、新たなパラメータを導入することなく、再帰状態サイズを著しく拡大できる単純な外部積ベースの状態拡張機構を導入する。
我々の大規模な実験は、言語モデリング、画像分類、Long Range ArenaにおいてHGRN1よりもHGRN1の方が優れていることを検証する。我々の最大の3B HGRN2モデルは、制御された実験環境では、言語モデリングのためのMambaとLLaMa Architecture Transformerをわずかに上回っている。
関連論文リスト
- On the Scalability of GNNs for Molecular Graphs [7.402389334892391]
グラフニューラルネットワーク(GNN)は、スパース演算の効率の低下、大規模なデータ要求、さまざまなアーキテクチャの有効性の明確さの欠如など、スケールのメリットをまだ示していない。
我々は,2次元分子グラフの公開コレクションにおいて,メッセージパッシングネットワーク,グラフトランスフォーマー,ハイブリッドアーキテクチャを解析する。
初めて、GNNは、深度、幅、分子数、ラベルの数、事前訓練データセットの多様性の増大によって、非常に恩恵を受けることを観察した。
論文 参考訳(メタデータ) (2024-04-17T17:11:31Z) - GaussianCube: Structuring Gaussian Splatting using Optimal Transport for 3D Generative Modeling [55.05713977022407]
3次元ガウス散乱(GS)は3次元適合率とレンダリング速度の点でニューラルレイディアンス場よりも大幅に改善されている。
散在したガウス群によるこの非構造表現は、生成的モデリングにとって重要な課題である。
本稿では,GaussianCubeについて紹介する。
論文 参考訳(メタデータ) (2024-03-28T17:59:50Z) - Hierarchically Gated Recurrent Neural Network for Sequence Modeling [36.14544998133578]
階層的Gated Recurrent Neural Network (HGRN) と呼ばれるゲート線形RNNモデルを提案する。
言語モデリング,画像分類,長距離アリーナベンチマーク実験は,提案モデルの有効性と有効性を示す。
論文 参考訳(メタデータ) (2023-11-08T16:50:05Z) - Efficient Heterogeneous Graph Learning via Random Projection [65.65132884606072]
不均一グラフニューラルネットワーク(HGNN)は、異種グラフを深層学習するための強力なツールである。
最近のプリ計算ベースのHGNNは、一時間メッセージパッシングを使用して不均一グラフを正規形テンソルに変換する。
我々はRandom Projection Heterogeneous Graph Neural Network (RpHGNN) というハイブリッド計算前HGNNを提案する。
論文 参考訳(メタデータ) (2023-10-23T01:25:44Z) - SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - SpikeGPT: Generative Pre-trained Language Model with Spiking Neural
Networks [10.575541943697733]
スパイキングニューラルネットワーク(SNN)はスパースとイベント駆動のアクティベーションを活用して、モデル推論に関連する計算オーバーヘッドを削減する。
イベント駆動型スパイクアクティベーションユニットを用いた生成言語モデルを実装した。
SpikeGPTは、これまでで最大のバックプロパゲーション訓練SNNモデルであり、自然言語の生成と理解の両方に適している。
論文 参考訳(メタデータ) (2023-02-27T16:43:04Z) - A Comprehensive Study on Large-Scale Graph Training: Benchmarking and
Rethinking [124.21408098724551]
グラフニューラルネットワーク(GNN)の大規模グラフトレーニングは、非常に難しい問題である
本稿では,既存の問題に対処するため,EnGCNという新たなアンサンブルトレーニング手法を提案する。
提案手法は,大規模データセット上でのSOTA(State-of-the-art)の性能向上を実現している。
論文 参考訳(メタデータ) (2022-10-14T03:43:05Z) - E(n) Equivariant Graph Neural Networks [86.75170631724548]
本稿では,E(n)-Equivariant Graph Neural Networks (EGNNs) と呼ばれる回転,翻訳,反射,置換に等価なグラフニューラルネットワークを学習する新しいモデルを提案する。
既存の手法とは対照的に、私たちの仕事は計算的に高価な中間層における高階表現を必要としません。
論文 参考訳(メタデータ) (2021-02-19T10:25:33Z) - Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。
本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。
モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文 参考訳(メタデータ) (2020-12-31T18:48:58Z) - Stronger, Faster and More Explainable: A Graph Convolutional Baseline
for Skeleton-based Action Recognition [22.90127409366107]
グラフ畳み込みネットワーク(GCN)に基づく効率的だが強力なベースラインを提案する。
畳み込みニューラルネットワーク(CNN)におけるResNetアーキテクチャの成功に触発されたResGCNモジュールがGCNで導入された。
PartAttブロックは、アクションシーケンス全体の上で最も重要な身体部分を発見するために提案される。
論文 参考訳(メタデータ) (2020-10-20T02:56:58Z) - Global Attention Improves Graph Networks Generalization [30.134738629447927]
本稿では,低ランクグローバルアテンション(LRGA)モジュールをグラフニューラルネットワーク(GNN)に導入することを提唱する。
表現型GNNの特定のファミリーに着目し、LRGAで拡張することで、強力なグラフ同型テストへのアルゴリズム的アライメントが得られることを示す。
現実的な観点からは、既存のGNNレイヤをLRGAで拡張することで、現在のGNNベンチマークにおける技術結果の状態を生成できる。
論文 参考訳(メタデータ) (2020-06-14T09:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。