論文の概要: GSPN-2: Efficient Parallel Sequence Modeling
- arxiv url: http://arxiv.org/abs/2512.07884v1
- Date: Fri, 28 Nov 2025 07:26:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 04:16:52.544738
- Title: GSPN-2: Efficient Parallel Sequence Modeling
- Title(参考訳): GSPN-2:効率的な並列シーケンスモデリング
- Authors: Hongjun Wang, Yitong Jiang, Collin McCarthy, David Wehr, Hanrong Ye, Xinhao Li, Ka Chun Cheung, Wonmin Byeon, Jinwei Gu, Ke Chen, Kai Han, Hongxu Yin, Pavlo Molchanov, Jan Kautz, Sifei Liu,
- Abstract要約: 一般化空間伝搬ネットワーク(GSPN)は2次自己アテンションを直線走査型伝搬方式に置き換えることでこの問題に対処する。
GSPN-2は、視覚アプリケーションにおけるグローバル空間コンテキストをモデル化するための新しい効率フロンティアを確立する。
- 参考スコア(独自算出の注目度): 101.33780567131716
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Efficient vision transformer remains a bottleneck for high-resolution images and long-video related real-world applications. Generalized Spatial Propagation Network (GSPN) addresses this by replacing quadratic self-attention with a line-scan propagation scheme, bringing the cost close to linear in the number of rows or columns, while retaining accuracy. Despite this advancement, the existing GSPN implementation still suffers from (i) heavy overhead due to repeatedly launching GPU kernels, (ii) excessive data transfers from global GPU memory, and (iii) redundant computations caused by maintaining separate propagation weights for each channel. We introduce GSPN-2, a joint algorithm-system redesign. In particular, we eliminate thousands of micro-launches from the previous implementation into one single 2D kernel, explicitly pin one warp to each channel slice, and stage the previous column's activations in shared memory. On the model side, we introduce a compact channel propagation strategy that replaces per-channel matrices, trimming parameters, and align naturally with the affinity map used in transformer attention. Experiments demonstrate GSPN-2's effectiveness across image classification and text-to-image synthesis tasks, matching transformer-level accuracy with significantly lower computational cost. GSPN-2 establishes a new efficiency frontier for modeling global spatial context in vision applications through its unique combination of structured matrix transformations and GPU-optimized implementation. Project page: https://whj363636.github.io/GSPN2/
- Abstract(参考訳): 効率的な視覚変換器は高解像度画像や長時間ビデオ関連現実世界のアプリケーションにおいてボトルネックとして残っている。
一般化空間伝搬ネットワーク(GSPN)は、2次自己アテンションを直線走査伝搬方式に置き換え、精度を維持しつつ行数や列数に線形に近いコストをもたらすことでこの問題に対処する。
この進歩にもかかわらず、既存のGSPN実装は依然として苦戦している。
(i)GPUカーネルの繰り返し起動によるオーバーヘッドが大きい。
(II)グローバルGPUメモリからの過剰なデータ転送
三 それぞれのチャネルごとに別々の伝搬重みを維持することにより生じる冗長な計算。
GSPN-2はアルゴリズムとシステムの共同設計である。
特に、以前の実装から数千のマイクロローンチを1つの2Dカーネルに切り離し、各チャネルスライスに1つのワープを明示的に固定し、前のカラムのアクティベーションを共有メモリで実行します。
モデル側では、チャネルごとの行列を置換し、パラメータをトリミングし、トランスフォーマーの注意に使用される親和性マップと自然に整合する、コンパクトなチャネル伝搬戦略を導入する。
GSPN-2は画像分類やテキストと画像の合成作業にまたがって有効であり、トランスフォーマーレベルの精度と計算コストを大幅に低下させる。
GSPN-2は、構造化行列変換とGPU最適化実装のユニークな組み合わせにより、視覚アプリケーションにおけるグローバル空間コンテキストをモデル化するための新しい効率フロンティアを確立する。
プロジェクトページ: https://whj363636.github.io/GSPN2/
関連論文リスト
- DistZO2: High-Throughput and Memory-Efficient Zeroth-Order Fine-tuning LLMs with Distributed Parallel Computing [4.589472292598182]
細調整された大規模言語モデル(LLM)は、その厳密なスケールのため、リソース集約型のままである。
LLMの分散ゼロオーダー微調整のためのメモリ効率のよいフレームワークであるDistZO2を提案する。
論文 参考訳(メタデータ) (2025-07-03T22:53:34Z) - Systems and Algorithms for Convolutional Multi-Hybrid Language Models at Scale [68.6602625868888]
本稿では,2つの簡単な観測に基づいて,畳み込み型マルチハイブリッドアーキテクチャを提案する。
ハイブリッドモデルのオペレータは、インコンテキストリコール、マルチトークンリコール、圧縮などのトークン操作タスクにカスタマイズできる。
我々は、最適化されたトランスフォーマーの1.2倍から2.9倍、以前の世代のハイブリッドの1.1倍から1.4倍の速さでエンドツーエンドを訓練する。
論文 参考訳(メタデータ) (2025-02-25T19:47:20Z) - Parallel Sequence Modeling via Generalized Spatial Propagation Network [80.66202109995726]
Generalized Spatial Propagation Network (GSPN)は、2次元空間構造を本質的にキャプチャする最適化された視覚タスクのための新しいアテンションメカニズムである。
GSPNは、空間的コヒーレントな画像データを直接操作し、ラインスキャンアプローチを通じて高密度なペアワイズ接続を形成することにより、制限を克服する。
GSPNは、ImageNet分類、クラス誘導画像生成、テキスト・ツー・イメージ生成などの視覚タスクにおいて、より優れた空間忠実性と最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-21T18:56:19Z) - FullTransNet: Full Transformer with Local-Global Attention for Video Summarization [16.134118247239527]
本稿では,ビデオ要約のためのFullTransNetというトランスフォーマー型アーキテクチャを提案する。
ビデオ要約の代替アーキテクチャとしてエンコーダ・デコーダ構造を持つフルトランスフォーマーを使用する。
本モデルでは, Fスコアが54.4%, 63.9%であり, 比較的低い計算量とメモリ要件を維持している。
論文 参考訳(メタデータ) (2025-01-01T16:07:27Z) - Boosting the effective performance of massively parallel tensor network
state algorithms on hybrid CPU-GPU based architectures via non-Abelian
symmetries [0.0]
Wigner-Eckhart定理に基づく非アベリア対称性関連テンソル代数は、従来のテンソルネットワーク層から完全に分離されている。
我々は、計算複雑性の観点からarXiv:2305.05581で報告された結果に対し、桁違いの性能向上を達成した。
提案手法の有効性能は250-500TFLOPSと推定される。
論文 参考訳(メタデータ) (2023-09-23T07:49:53Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Scalable Optimal Transport in High Dimensions for Graph Distances,
Embedding Alignment, and More [7.484063729015126]
最適輸送のためのコスト行列の2つの効率的な対数線形時間近似を提案する。
これらの近似は、複雑な高次元空間に対してもよく機能するエントロピー規則化OTに対する一般的な対数線形時間アルゴリズムを可能にする。
グラフ距離回帰のために,グラフニューラルネットワーク(GNN)と拡張シンクホーンを組み合わせたグラフトランスポートネットワーク(GTN)を提案する。
論文 参考訳(メタデータ) (2021-07-14T17:40:08Z) - Why Approximate Matrix Square Root Outperforms Accurate SVD in Global
Covariance Pooling? [59.820507600960745]
本稿では,前方通過のSVDと後方伝播のPad'e近似を用いて勾配を計算する新しいGCPメタ層を提案する。
提案するメタレイヤは,さまざまなCNNモデルに統合され,大規模および微細なデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-05-06T08:03:45Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。