論文の概要: pLSTM: parallelizable Linear Source Transition Mark networks
- arxiv url: http://arxiv.org/abs/2506.11997v1
- Date: Fri, 13 Jun 2025 17:51:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.90913
- Title: pLSTM: parallelizable Linear Source Transition Mark networks
- Title(参考訳): pLSTM:並列化可能な線形ソース遷移マークネットワーク
- Authors: Korbinian Pöppel, Richard Freinschlag, Thomas Schmied, Wei Lin, Sepp Hochreiter,
- Abstract要約: 我々は、ソース、トランジション、マークゲートを用いた並列化可能な線形ソース遷移マークネットワーク(pLSTM)を導入する。
pLSTMは、DAGの長距離における2つの異なるモードによる消滅/爆発的アクティベーション/段階的な問題に対処する。
我々は,pLSTMが画像サイズを大きくするのに対して,Transformerは外挿に苦慮していることを示す。
- 参考スコア(独自算出の注目度): 10.620405837091022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern recurrent architectures, such as xLSTM and Mamba, have recently challenged the Transformer in language modeling. However, their structure constrains their applicability to sequences only or requires processing multi-dimensional data structures, such as images or molecular graphs, in a pre-defined sequential order. In contrast, Multi-Dimensional RNNs (MDRNNs) are well suited for data with a higher level structure, like 2D grids, trees, and directed acyclic graphs (DAGs). In this work, we extend the notion of multi-dimensionality to linear RNNs. We introduce parallelizable Linear Source Transition Mark networks (pLSTMs) using Source, Transition, and Mark gates that act on the line graph of a general DAG. This enables parallelization in analogy to parallel associative scans and the chunkwise-recurrent form of sequential linear RNNs, but for DAGs. For regular grids (1D and 2D), like images, this scheme can be efficiently implemented using einsum operations, concatenations, and padding in logarithmic time. pLSTMs tackle the vanishing/exploding activation/gradient problem for long distances in DAGs via two distinct modes: a directed propagation mode (P-mode) and a diffusive distribution mode (D-mode). To showcase the long-range capabilities of pLSTM, we introduce arrow-pointing extrapolation as a synthetic computer vision task that contains long-distance directional information. We demonstrate that pLSTMs generalize well to larger image sizes, whereas Transformers struggle to extrapolate. On established molecular graph and computer vision benchmarks, pLSTMs also show strong performance. Code and Datasets are available at: https://github.com/ml-jku/plstm_experiments.
- Abstract(参考訳): xLSTMやMambaのような現代的な反復アーキテクチャは、最近、言語モデリングにおいてTransformerに挑戦している。
しかし、それらの構造はシーケンスのみに適用可能であるか、あるいは画像や分子グラフなどの多次元データ構造を事前に定義された順序で処理する必要がある。
対照的に、MDRNN(Multi-dimensional RNN)は2次元グリッド、木、有向非巡回グラフ(DAG)のような高次構造を持つデータに適している。
本研究では,多次元性の概念を線形RNNに拡張する。
我々は、一般DAGの線グラフに作用するソース、トランジション、マークゲートを用いて、並列化可能な線形ソース遷移マークネットワーク(pLSTM)を導入する。
これにより、並列連想スキャンや連続線形RNNのチャンクワイズ・リカレント形式と類似した並列化が可能となるが、DAGはそうではない。
画像のような正則格子(1Dと2D)の場合、このスキームは固有演算、連結、対数時間でのパディングを用いて効率的に実装できる。
pLSTMは、2つの異なるモード、すなわち有向伝搬モード(Pモード)と拡散分布モード(Dモード)を介して、DAGの長距離における消滅/爆発活性化/段階的問題に対処する。
pLSTMの長距離機能を示すために,遠距離方向情報を含む合成コンピュータビジョンタスクとして矢印点外挿を導入する。
我々は,pLSTMが画像サイズを大きくするのに対して,Transformerは外挿に苦慮していることを示す。
確立された分子グラフとコンピュータビジョンベンチマークでは、pLSTMも高い性能を示す。
コードとデータセットは、https://github.com/ml-jku/plstm_experiments.comで入手できる。
関連論文リスト
- Fixed-Point RNNs: From Diagonal to Dense in a Few Iterations [10.851383867834052]
我々は,高密度線形RNNを並列化可能な対角線RNNの固定点として1層に計算する。
一般的なおもちゃのタスクである$A_5$, $S_5$, copying, and modular arithmeticsで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-03-13T18:50:22Z) - GL-Fusion: Rethinking the Combination of Graph Neural Network and Large Language model [63.774726052837266]
グラフニューラルネットワーク(GNN)とLarge Language Models(LLM)を深く統合した新しいアーキテクチャを導入する。
本稿では,(1)GNNのメッセージパッシング機能を直接LLMのトランスフォーマー層に組み込む構造対応トランスフォーマー,(2)グラフノードとエッジから圧縮されていない全テキストを処理するグラフテキストクロスアテンション,(3)GNN-LLMツインプレクタ,(3)GNN-LLMツインプレクタ,3)GNNのスケーラブルなワンパス予測とともに,LLMの柔軟な自己回帰生成を実現する。
論文 参考訳(メタデータ) (2024-12-08T05:49:58Z) - xDiT: an Inference Engine for Diffusion Transformers (DiTs) with Massive Parallelism [5.704297874096985]
拡散モデルは高品質の画像やビデオを生成する上で重要な要素である。
本稿では,DiTの総合的並列推論エンジンであるxDiTを紹介する。
特に、Ethernetに接続されたGPUクラスタ上でDiTsのスケーラビリティを最初に示すのは、私たちです。
論文 参考訳(メタデータ) (2024-11-04T01:40:38Z) - ARNN: Attentive Recurrent Neural Network for Multi-channel EEG Signals to Identify Epileptic Seizures [2.3907933297014927]
A Attention Recurrent Neural Network (ARNN) が提案され、大量のデータを効率的に正確に処理できる。
ARNN細胞は、配列に沿って注意層を繰り返し適用し、配列長と線形複雑である。
このフレームワークは、注意層と長い短期記憶(LSTM)細胞にインスパイアされているが、この典型的な細胞を複数の順序でスケールアップし、マルチチャネル脳波信号を並列化する。
論文 参考訳(メタデータ) (2024-03-05T19:15:17Z) - Gated Linear Attention Transformers with Hardware-Efficient Training [60.670102007737476]
本研究は、並列化性に対してメモリ移動をオフにする線形注意のためのハードウェア効率のアルゴリズムについて述べる。
次に、このアルゴリズムを、データ依存ゲートを用いたより表現力豊かな線形アテンションに一般化する。
変圧器の標準アテンション層に代えて使用すると、結果として生じるゲート状リニアアテンショントランスが競合的に動作することが分かる。
論文 参考訳(メタデータ) (2023-12-11T18:51:59Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Block-Recurrent Transformers [49.07682696216708]
本稿では,逐次的にトランス層を適用するBlock-Recurrent Transformerを提案する。
我々のリカレントセルはシングルトークンではなくトークンブロック上で動作し、アクセルハードウェアを効率的に活用するためにブロック内の並列計算を利用する。
論文 参考訳(メタデータ) (2022-03-11T23:44:33Z) - A Linear Algebraic Approach to Model Parallelism in Deep Learning [0.0]
ネットワークのサイズと複雑さが大きくなるにつれて、大規模クラスタコンピューティング環境でのディープニューラルネットワーク(DNN)のトレーニングがますます必要になる。
深層学習における並列性をモデル化するための線形代数的手法を提案し,DNNにおけるテンソルの並列分布を実現する。
本研究では,これらの並列プリミティブを用いて分散DNN層を構築し,PyTorchおよびMPIベースの分散ディープラーニングツールキットであるDistDLを用いて分散DNNを構築し,訓練することにより,それらのアプリケーションを実演する。
論文 参考訳(メタデータ) (2020-06-04T19:38:05Z) - Locality Sensitive Hashing-based Sequence Alignment Using Deep
Bidirectional LSTM Models [0.0]
LSTM(Bidirectional Long Short-Term Memory)は、RNN(Recurrent Neural Network)アーキテクチャの一種である。
本稿では,LSH(Locality-sensitive hashing)に基づくシーケンスアライメントを実現する手法として,深層双方向LSTMを用いたシーケンスモデリングを提案する。
論文 参考訳(メタデータ) (2020-04-05T05:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。