論文の概要: D-com: Accelerating Iterative Processing to Enable Low-rank Decomposition of Activations
- arxiv url: http://arxiv.org/abs/2510.13147v1
- Date: Wed, 15 Oct 2025 04:56:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.49938
- Title: D-com: Accelerating Iterative Processing to Enable Low-rank Decomposition of Activations
- Title(参考訳): D-com: アクティベーションの低ランク分解を可能にする反復処理の高速化
- Authors: Faraz Tahmasebi, Michael Pelluer, Hyoukjun Kwon,
- Abstract要約: 本稿では, 入力分解アルゴリズムとハードウェアサポートの適切な選択により, 入力分解が著しく有用であることを示す。
我々は、進行分解アルゴリズム、Lanczosアルゴリズムを採用し、分解アルゴリズムの共加速器アーキテクチャを設計する。
当社のアクセラレータであるD-comは、モデル品質の劣化を小さくするコストで、A100 GPUと比較して、エンドツーエンドのレイテンシを22%改善します。
- 参考スコア(独自算出の注目度): 2.4698886064068555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The computation and memory costs of large language models kept increasing over last decade, which reached over the scale of 1T parameters. To address the challenges from the large scale models, model compression techniques such as low-rank decomposition have been explored. Previous model decomposition works have focused on weight decomposition to avoid costly runtime decomposition, whose latency often significantly exceeds the benefits from decomposition (e.g., 38% more end-to-end latency when running Llama2-7b on A100 with 4K sequence length with activation decomposition compared to no decomposition). In this work, we debunk such observations and report that the input decomposition can be significantly beneficial with a proper choice of decomposition algorithm and hardware support. We adopt progressive decomposition algorithm, Lanczos algorithm, and design a co-accelerator architecture for the decomposition algorithm. To address the memory- boundness of the decomposition operation, we introduce a novel compute replication methodology that moves the op- eration toward compute-bound region, which enables 6.2x speedup in our evaluation. We also develop an output shape- preserving computation scheme that eliminates decomposi- tion costs in consecutive layers. To compensate model quality loss from compression, we introduce a multi-track decom- position approach that separately handles outlier channels for high accuracy and low perplexity with minimal compu- tational costs. Combined together, our accelerator, D-com, provides 22% end-to-end latency improvements compared to A100 GPU at the cost of small model quality degradation (e.g., 3% on AI2 Reasoning Challenge task).
- Abstract(参考訳): 大規模言語モデルの計算とメモリコストは、過去10年間で増加し続け、1Tパラメータのスケールに到達した。
大規模モデルによる課題に対処するため,低ランク分解などのモデル圧縮手法が検討されている。
例えば、A100上でLlama2-7bを4Kのシーケンス長で実行した場合のレイテンシは、分解を伴わずにアクティベートして4Kのシーケンス長を持つ場合のレイテンシが38%向上する)。
本研究では,そのような観測をデバンクし,入力分解が分解アルゴリズムとハードウェアサポートを適切に選択することで有益であることを示す。
我々は、進行分解アルゴリズム、Lanczosアルゴリズムを採用し、分解アルゴリズムの共加速器アーキテクチャを設計する。
分解操作のメモリバウンダリ性に対処するために,オペエレーションを計算バウンダリ領域へ移動させる新しい計算レプリケーション手法を導入し,評価の6.2倍の高速化を実現した。
また, 連続層における分解・分解コストを低減できる出力形状保存型計算手法を開発した。
圧縮によるモデル品質の損失を補うため,我々は,コンプレーションコストを最小限に抑えながら,高精度かつ低コンプレクティビティで外部チャネルを別々に扱うマルチトラック・デコム・ポジション・アプローチを導入する。
私たちのアクセラレータであるD-comは、小さなモデル品質の劣化(AI2 Reasoning Challengeタスクの3%など)を犠牲にして、A100 GPUと比較して、エンドツーエンドのレイテンシを22%改善します。
関連論文リスト
- Spectral Compression Transformer with Line Pose Graph for Monocular 3D Human Pose Estimation [1.8999296421549172]
本稿では,SCT(Spectral Compression Transformer)を導入し,シーケンス長を削減し,計算を高速化する。
LPGは、入力された2D関節位置を補完する骨格位置情報を生成する。
本モデルでは,計算効率を向上し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-05-27T15:08:03Z) - The Iterative Chainlet Partitioning Algorithm for the Traveling Salesman Problem with Drone and Neural Acceleration [27.475353583459263]
ドローンによるトラベリングセールスマン問題(TSP-D)を解決するための反復連鎖分割(ICP)アルゴリズムとそのニューラルアクセラレーションについて紹介する。
ICPは、従来の最先端アルゴリズムよりも平均2.6%のソリューション品質向上を実現し、計算時間を91.3%削減した。
ICPと比較して、NICPは計算時間を28.6%削減し、目的関数値の増大は0.14%に制限される。
論文 参考訳(メタデータ) (2025-04-21T14:51:15Z) - Q-VLM: Post-training Quantization for Large Vision-Language Models [73.19871905102545]
本稿では,大規模視覚言語モデル(LVLM)の学習後量子化フレームワークを提案する。
視覚言語モデル全体の離散化誤差に大きな影響を及ぼす層間依存関係を抽出し、この依存関係を最適な量子化戦略に組み込む。
実験の結果,提案手法はメモリを2.78倍圧縮し,出力速度を約13B LLaVAモデルで1.44倍向上させることができた。
論文 参考訳(メタデータ) (2024-10-10T17:02:48Z) - Multi-Grid Tensorized Fourier Neural Operator for High-Resolution PDEs [93.82811501035569]
本稿では,メモリ要求を低減し,より一般化したデータ効率・並列化可能な演算子学習手法を提案する。
MG-TFNOは、実世界の実世界の現象の局所的構造と大域的構造を活用することで、大規模な分解能にスケールする。
乱流ナビエ・ストークス方程式において150倍以上の圧縮で誤差の半分以下を達成できる優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-29T20:18:52Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - Fast and Robust Iterative Closest Point [32.42799285301607]
イテレーティブ・クローズト・ポイント(ICP)は、2つの点集合間の剛性登録のための基本技術である。
Sparse ICPのような最近の研究は、計算速度を犠牲にしてスパース性最適化によって堅牢性を達成する。
本稿では,古典的な点対点ICPを最大化最小化(MM)アルゴリズムとして扱えることを示す。
論文 参考訳(メタデータ) (2020-07-15T11:32:53Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。