論文の概要: HGRN2: Gated Linear RNNs with State Expansion
- arxiv url: http://arxiv.org/abs/2404.07904v2
- Date: Mon, 19 Aug 2024 17:16:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 03:08:08.899857
- Title: HGRN2: Gated Linear RNNs with State Expansion
- Title(参考訳): HGRN2: 状態拡張を備えたGated Linear RNN
- Authors: Zhen Qin, Songlin Yang, Weixuan Sun, Xuyang Shen, Dong Li, Weigao Sun, Yiran Zhong,
- Abstract要約: 本稿では, 新たなパラメータを導入することなく, 再帰状態サイズを大幅に拡大する, 簡易な外部製品ベース状態拡張機構を提案する。
この拡張は、ハードウェア効率のトレーニングを可能にするHGRN2の線形アテンション解釈も提供する。
実験では,HGRNに対するHGRN2の利点を異なる設定で一貫して検証し,他の繰り返しモデルと競合することを示した。
- 参考スコア(独自算出の注目度): 30.701635868842814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchically gated linear RNN (HGRN, \citealt{HGRN}) has demonstrated competitive training speed and performance in language modeling while offering efficient inference. However, the recurrent state size of HGRN remains relatively small, limiting its expressiveness. To address this issue, we introduce a simple outer product-based state expansion mechanism, which significantly enlarges the recurrent state size without introducing any additional parameters. This enhancement also provides a linear attention interpretation for HGRN2, enabling hardware-efficient training. Our extensive experiments verify the advantage of HGRN2 over HGRN consistently across different settings and competitive with other recurrent models.
- Abstract(参考訳): 階層化された線形RNN (HGRN, \citealt{HGRN}) は、効率的な推論を提供しながら、言語モデリングにおける競争的トレーニング速度と性能を実証している。
しかし、HGRNの繰り返し状態サイズは比較的小さく、表現性が制限されている。
この問題に対処するために、我々は、追加パラメータを導入することなく、再帰状態サイズを大幅に拡大する単純な外部製品ベースの状態拡張機構を導入する。
この拡張は、ハードウェア効率のトレーニングを可能にするHGRN2の線形アテンション解釈も提供する。
我々の広範な実験は、HGRNよりもHGRN2の利点を、異なる設定で一貫して検証し、他のリカレントモデルと競合する。
関連論文リスト
- BG-HGNN: Toward Scalable and Efficient Heterogeneous Graph Neural
Network [6.598758004828656]
不均一グラフニューラルネットワーク(HGNN)は、異種グラフ用に設計された有望なニューラルモデルクラスである。
既存のHGNNは、様々な関係をモデル化するために異なるパラメータ空間を使用する。
本稿では,Blend&Grind-HGNNについて紹介する。
論文 参考訳(メタデータ) (2024-03-13T03:03:40Z) - Causal Inference in Gene Regulatory Networks with GFlowNet: Towards
Scalability in Large Systems [87.45270862120866]
我々は、GRNにおける因果構造学習を強化する新しいフレームワークとしてSwift-DynGFNを紹介した。
具体的には、Swift-DynGFNは、並列化を高め、計算コストを下げるために、遺伝子的に独立性を利用する。
論文 参考訳(メタデータ) (2023-10-05T14:59:19Z) - Prediction of gene expression time series and structural analysis of
gene regulatory networks using recurrent neural networks [0.0]
この作業は、RNNの注意機構を理解し、活用する方法を提供する。
遺伝子発現データから時系列予測とGRNの推測を行うRNNベースの手法への道を開く。
論文 参考訳(メタデータ) (2021-09-13T10:30:21Z) - Dissecting the Diffusion Process in Linear Graph Convolutional Networks [71.30132908130581]
近年、グラフ畳み込みネットワーク(GCN)が注目を集めています。
最近の研究は、線形GCNが元の非線形GCNに匹敵する性能が得られることを示している。
DGC(Decoupled Graph Convolution)を提案し,端末時間と機能伝播ステップを分離する。
論文 参考訳(メタデータ) (2021-02-22T02:45:59Z) - The Surprising Power of Graph Neural Networks with Random Node
Initialization [54.4101931234922]
グラフニューラルネットワーク(GNN)は、関係データ上での表現学習に有効なモデルである。
標準 GNN はその表現力に制限があり、Weisfeiler-Leman グラフ同型(英語版)の能力以外の区別はできない。
本研究では,ランダムノード(RNI)を用いたGNNの表現力の解析を行う。
我々はこれらのモデルが普遍的であることを証明し、GNNが高次特性の計算に頼らない最初の結果である。
論文 参考訳(メタデータ) (2020-10-02T19:53:05Z) - Permutation-equivariant and Proximity-aware Graph Neural Networks with
Stochastic Message Passing [88.30867628592112]
グラフニューラルネットワーク(GNN)は、グラフ上の新たな機械学習モデルである。
置換等価性と近接認識性は、GNNにとって非常に望ましい2つの重要な特性である。
既存のGNNは、主にメッセージパッシング機構に基づいており、同時に2つの特性を保存できないことを示す。
ノードの近さを保つため,既存のGNNをノード表現で拡張する。
論文 参考訳(メタデータ) (2020-09-05T16:46:56Z) - Stochastic Graph Recurrent Neural Network [6.656993023468793]
本稿では,ノード属性とトポロジの進化を同時に捉えるために潜時変数を適用した新しいニューラルアーキテクチャであるSGRNNを提案する。
具体的には、決定論的状態は、相互干渉を抑制する反復過程において状態から分離される。
実世界のデータセットを用いた実験により,提案モデルの有効性が示された。
論文 参考訳(メタデータ) (2020-09-01T16:14:30Z) - Global Attention Improves Graph Networks Generalization [30.134738629447927]
本稿では,低ランクグローバルアテンション(LRGA)モジュールをグラフニューラルネットワーク(GNN)に導入することを提唱する。
表現型GNNの特定のファミリーに着目し、LRGAで拡張することで、強力なグラフ同型テストへのアルゴリズム的アライメントが得られることを示す。
現実的な観点からは、既存のGNNレイヤをLRGAで拡張することで、現在のGNNベンチマークにおける技術結果の状態を生成できる。
論文 参考訳(メタデータ) (2020-06-14T09:01:57Z) - Gated Graph Recurrent Neural Networks [176.3960927323358]
グラフ処理の一般的な学習フレームワークとしてグラフリカレントニューラルネットワーク(GRNN)を導入する。
勾配の消失問題に対処するため,時間,ノード,エッジゲートの3つの異なるゲーティング機構でGRNNを前進させた。
数値的な結果は、GRNNがGNNやRNNよりも優れており、グラフプロセスの時間構造とグラフ構造の両方を考慮することが重要であることを示している。
論文 参考訳(メタデータ) (2020-02-03T22:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。