論文の概要: HGRN2: Gated Linear RNNs with State Expansion
- arxiv url: http://arxiv.org/abs/2404.07904v1
- Date: Thu, 11 Apr 2024 16:43:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 13:11:00.092520
- Title: HGRN2: Gated Linear RNNs with State Expansion
- Title(参考訳): HGRN2: 状態拡張を備えたGated Linear RNN
- Authors: Zhen Qin, Songlin Yang, Weixuan Sun, Xuyang Shen, Dong Li, Weigao Sun, Yiran Zhong,
- Abstract要約: 階層線形RNN(HGRN)は、効率的な推論を提供しながら、言語モデリングにおける競争的トレーニング速度と性能を実証している。
本稿では, 新たなパラメータを導入することなく, 再帰状態サイズを著しく拡大することのできる, 簡易な外部生成物ベース状態拡張機構を提案する。
本研究では,言語モデリング,画像分類,長距離アリーナにおけるHGRN2のHGRN1に対する優位性を検証した。
- 参考スコア(独自算出の注目度): 30.701635868842814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchically gated linear RNN (HGRN,Qin et al. 2023) has demonstrated competitive training speed and performance in language modeling, while offering efficient inference. However, the recurrent state size of HGRN remains relatively small, which limits its expressiveness.To address this issue, inspired by linear attention, we introduce a simple outer-product-based state expansion mechanism so that the recurrent state size can be significantly enlarged without introducing any additional parameters. The linear attention form also allows for hardware-efficient training.Our extensive experiments verify the advantage of HGRN2 over HGRN1 in language modeling, image classification, and Long Range Arena.Our largest 3B HGRN2 model slightly outperforms Mamba and LLaMa Architecture Transformer for language modeling in a controlled experiment setting; and performs competitively with many open-source 3B models in downstream evaluation while using much fewer total training tokens.
- Abstract(参考訳): 階層化された線形RNN(HGRN,Qin,al 2023)は、効率的な推論を提供しながら、言語モデリングにおける競争的なトレーニング速度と性能を実証している。
しかし、HGRNの繰り返し状態サイズは比較的小さく、その表現性を制限しているため、線形的注意から着想を得たこの問題に対処するために、新たなパラメータを導入することなく、再帰状態サイズを著しく拡大できる単純な外部積ベースの状態拡張機構を導入する。
我々の大規模な実験は、言語モデリング、画像分類、Long Range ArenaにおいてHGRN1よりもHGRN1の方が優れていることを検証する。我々の最大の3B HGRN2モデルは、制御された実験環境では、言語モデリングのためのMambaとLLaMa Architecture Transformerをわずかに上回っている。
関連論文リスト
- BG-HGNN: Toward Scalable and Efficient Heterogeneous Graph Neural
Network [6.598758004828656]
不均一グラフニューラルネットワーク(HGNN)は、異種グラフ用に設計された有望なニューラルモデルクラスである。
既存のHGNNは、様々な関係をモデル化するために異なるパラメータ空間を使用する。
本稿では,Blend&Grind-HGNNについて紹介する。
論文 参考訳(メタデータ) (2024-03-13T03:03:40Z) - Causal Inference in Gene Regulatory Networks with GFlowNet: Towards
Scalability in Large Systems [87.45270862120866]
我々は、GRNにおける因果構造学習を強化する新しいフレームワークとしてSwift-DynGFNを紹介した。
具体的には、Swift-DynGFNは、並列化を高め、計算コストを下げるために、遺伝子的に独立性を利用する。
論文 参考訳(メタデータ) (2023-10-05T14:59:19Z) - Prediction of gene expression time series and structural analysis of
gene regulatory networks using recurrent neural networks [0.0]
この作業は、RNNの注意機構を理解し、活用する方法を提供する。
遺伝子発現データから時系列予測とGRNの推測を行うRNNベースの手法への道を開く。
論文 参考訳(メタデータ) (2021-09-13T10:30:21Z) - Dissecting the Diffusion Process in Linear Graph Convolutional Networks [71.30132908130581]
近年、グラフ畳み込みネットワーク(GCN)が注目を集めています。
最近の研究は、線形GCNが元の非線形GCNに匹敵する性能が得られることを示している。
DGC(Decoupled Graph Convolution)を提案し,端末時間と機能伝播ステップを分離する。
論文 参考訳(メタデータ) (2021-02-22T02:45:59Z) - The Surprising Power of Graph Neural Networks with Random Node
Initialization [54.4101931234922]
グラフニューラルネットワーク(GNN)は、関係データ上での表現学習に有効なモデルである。
標準 GNN はその表現力に制限があり、Weisfeiler-Leman グラフ同型(英語版)の能力以外の区別はできない。
本研究では,ランダムノード(RNI)を用いたGNNの表現力の解析を行う。
我々はこれらのモデルが普遍的であることを証明し、GNNが高次特性の計算に頼らない最初の結果である。
論文 参考訳(メタデータ) (2020-10-02T19:53:05Z) - Permutation-equivariant and Proximity-aware Graph Neural Networks with
Stochastic Message Passing [88.30867628592112]
グラフニューラルネットワーク(GNN)は、グラフ上の新たな機械学習モデルである。
置換等価性と近接認識性は、GNNにとって非常に望ましい2つの重要な特性である。
既存のGNNは、主にメッセージパッシング機構に基づいており、同時に2つの特性を保存できないことを示す。
ノードの近さを保つため,既存のGNNをノード表現で拡張する。
論文 参考訳(メタデータ) (2020-09-05T16:46:56Z) - Stochastic Graph Recurrent Neural Network [6.656993023468793]
本稿では,ノード属性とトポロジの進化を同時に捉えるために潜時変数を適用した新しいニューラルアーキテクチャであるSGRNNを提案する。
具体的には、決定論的状態は、相互干渉を抑制する反復過程において状態から分離される。
実世界のデータセットを用いた実験により,提案モデルの有効性が示された。
論文 参考訳(メタデータ) (2020-09-01T16:14:30Z) - Global Attention Improves Graph Networks Generalization [30.134738629447927]
本稿では,低ランクグローバルアテンション(LRGA)モジュールをグラフニューラルネットワーク(GNN)に導入することを提唱する。
表現型GNNの特定のファミリーに着目し、LRGAで拡張することで、強力なグラフ同型テストへのアルゴリズム的アライメントが得られることを示す。
現実的な観点からは、既存のGNNレイヤをLRGAで拡張することで、現在のGNNベンチマークにおける技術結果の状態を生成できる。
論文 参考訳(メタデータ) (2020-06-14T09:01:57Z) - Gated Graph Recurrent Neural Networks [176.3960927323358]
グラフ処理の一般的な学習フレームワークとしてグラフリカレントニューラルネットワーク(GRNN)を導入する。
勾配の消失問題に対処するため,時間,ノード,エッジゲートの3つの異なるゲーティング機構でGRNNを前進させた。
数値的な結果は、GRNNがGNNやRNNよりも優れており、グラフプロセスの時間構造とグラフ構造の両方を考慮することが重要であることを示している。
論文 参考訳(メタデータ) (2020-02-03T22:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。