論文の概要: FlashSinkhorn: IO-Aware Entropic Optimal Transport
- arxiv url: http://arxiv.org/abs/2602.03067v1
- Date: Tue, 03 Feb 2026 03:52:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.230769
- Title: FlashSinkhorn: IO-Aware Entropic Optimal Transport
- Title(参考訳): FlashSinkhorn:IO対応のエントロピー最適化トランスポート
- Authors: Felix X. -F. Ye, Xingjie Li, An Yu, Ming-Ching Chang, Linsong Chu, Davis Wertheimer,
- Abstract要約: シンクホーン反復によるエントロピック最適輸送(EOT)は、現代の機械学習で広く使われているが、解法は大規模に非効率である。
正方形ユークリッドコストに対するIO対応EOTソルバである textbfFlashSinkhorn を提案する。
A100$では、FlashSinkhornは、ポイントクラウドOT上の最先端のオンラインベースラインよりも、32倍のフォワードパスと161倍のエンドツーエンドのスピードアップを実現している。
- 参考スコア(独自算出の注目度): 12.298153797924074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Entropic optimal transport (EOT) via Sinkhorn iterations is widely used in modern machine learning, yet GPU solvers remain inefficient at scale. Tensorized implementations suffer quadratic HBM traffic from dense $n\times m$ interactions, while existing online backends avoid storing dense matrices but still rely on generic tiled map-reduce reduction kernels with limited fusion. We present \textbf{FlashSinkhorn}, an IO-aware EOT solver for squared Euclidean cost that rewrites stabilized log-domain Sinkhorn updates as row-wise LogSumExp reductions of biased dot-product scores, the same normalization as transformer attention. This enables FlashAttention-style fusion and tiling: fused Triton kernels stream tiles through on-chip SRAM and update dual potentials in a single pass, substantially reducing HBM IO per iteration while retaining linear-memory operations. We further provide streaming kernels for transport application, enabling scalable first- and second-order optimization. On A100 GPUs, FlashSinkhorn achieves up to $32\times$ forward-pass and $161\times$ end-to-end speedups over state-of-the-art online baselines on point-cloud OT, improves scalability on OT-based downstream tasks. For reproducibility, we release an open-source implementation at https://github.com/ot-triton-lab/ot_triton.
- Abstract(参考訳): シンクホーン反復によるエントロピック最適輸送(EOT)は、現代の機械学習で広く使われているが、GPUソルバは大規模に非効率である。
テンソル化実装は、高密度な$n\times m$インタラクションから二次的なHBMトラフィックに悩まされる一方、既存のオンラインバックエンドは、高密度な行列を保存することは避けるが、それでも、限定的な融合を伴う汎用タイル付きマップ-リデュース還元カーネルに依存している。
本稿では,2乗ユークリッドコストを考慮に入れたIO対応EOTソルバである‘textbf{FlashSinkhorn} について述べる。
融合されたTritonカーネルは、オンチップSRAMを通じてタイルをストリームし、単一のパスで2つの電位を更新する。
さらに、トランスポートアプリケーション用のストリーミングカーネルを提供し、スケーラブルな1階と2階の最適化を可能にします。
A100 GPUでは、FlashSinkhornは最大32ドル(約3万2000円)のフォワードパスと161ドル(約1万6000円)のスピードアップを実現し、ポイントクラウドOT上の最先端のオンラインベースラインに対するエンドツーエンドのスピードアップを実現し、OTベースのダウンストリームタスクのスケーラビリティを改善している。
再現性のために、https://github.com/ot-triton-lab/ot_triton.comでオープンソース実装をリリースします。
関連論文リスト
- Memory-Efficient Acceleration of Block Low-Rank Foundation Models on Resource Constrained GPUs [11.45717904490388]
トランスフォーマーベースの基盤モデルの最近の進歩は、多くのタスクのデフォルト選択となった。
その急速に成長するサイズは、単一のGPUに完全なモデルを適合させることがますます難しくなり、計算コストが禁じられる。
ブロック低ランク(BLR)圧縮技術は、重み行列のコンパクト表現を学習することでこの問題に対処する。
論文 参考訳(メタデータ) (2025-12-24T00:41:13Z) - GSPN-2: Efficient Parallel Sequence Modeling [101.33780567131716]
一般化空間伝搬ネットワーク(GSPN)は2次自己アテンションを直線走査型伝搬方式に置き換えることでこの問題に対処する。
GSPN-2は、視覚アプリケーションにおけるグローバル空間コンテキストをモデル化するための新しい効率フロンティアを確立する。
論文 参考訳(メタデータ) (2025-11-28T07:26:45Z) - Evolution Strategies at the Hyperscale [57.75314521465674]
本稿では,大集団にバックプロップフリーな最適化を拡大するための進化戦略(ES)アルゴリズムEGGROLLを紹介する。
ESは、微分不可能またはノイズの多い目的を処理できる強力なブラックボックス最適化手法のセットである。
EGGROLLはランダム行列を$Ain mathbbRmtimes r, Bin mathbbRntimes r$ with $rll min(m,n)$ とすることでこれらのボトルネックを克服し、低ランク行列摂動を$A Btop$とする。
論文 参考訳(メタデータ) (2025-11-20T18:56:05Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - Higher-order Linear Attention [59.92962330635185]
スケールされたドット積の注意の二次コストは、自己回帰言語モデルを長いコンテキストにスケールするための中心的な障害である。
本稿では,高次線形注意(Higher-order Linear Attention, HLA)を提案する。
論文 参考訳(メタデータ) (2025-10-31T07:54:37Z) - Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。
PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文 参考訳(メタデータ) (2025-07-09T07:27:18Z) - Tiled Flash Linear Attention: More Efficient Linear RNN and xLSTM Kernels [14.756974816917584]
ゲーティングを備えた線形RNNは、最近、言語モデリングにおけるトランスフォーマーと比較して、競合する性能を示した。
線形RNNのための新しいカーネルアルゴリズムである Tiled Flash Linear Attention (TFLA) を提案する。
高速化ベンチマークでは、TFLAに基づく新しいmLSTMカーネルが、高度に最適化されたFlashアテンション、線形アテンション、およびMambaカーネルより優れていることを示す。
論文 参考訳(メタデータ) (2025-03-18T16:09:47Z) - An Efficient Sparse Kernel Generator for O(3)-Equivariant Deep Networks [0.5737287537823071]
回転同変グラフニューラルネットワークは、空間深層学習タスクにおける技術性能の状態を導出する。
クレーブシュ=ゴルドンテンソル積(Clebsch-Gordon tensor product, CG)は、2つの高次特徴ベクトルと高構造スパーステンソルを交換して高密度出力ベクトルを生成するカーネルである。
我々は、CGテンソル製品用のGPUスパースカーネルジェネレータを導入し、既存のオープンソース実装やクローズドソース実装よりも大幅に高速化する。
論文 参考訳(メタデータ) (2025-01-23T08:20:47Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。