論文の概要: Forge-UGC: FX optimization and register-graph engine for universal graph compiler
- arxiv url: http://arxiv.org/abs/2604.16498v1
- Date: Tue, 14 Apr 2026 04:39:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.712078
- Title: Forge-UGC: FX optimization and register-graph engine for universal graph compiler
- Title(参考訳): Forge-UGC:ユニバーサルグラフコンパイラのためのFX最適化とレジスタグラフエンジン
- Authors: Satyam Kumar, Saurabh Jha,
- Abstract要約: OpenVINOやONNXのような既存のフレームワークは、しばしば不透明なコンパイルパイプラインを使用する。
Forge-UGCは、グラフキャプチャ、最適化、中間表現の低下、バックエンドスケジューリングを分離するハードウェアに依存しない設計でこの問題に対処する。
- 参考スコア(独自算出の注目度): 2.587194279527956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Forge-UGC (FX Optimization and Register-Graph Engine for Universal Graph Compilation), a four-phase compiler for transformer deployment on heterogeneous accelerator hardware, validated on Intel AI Boost NPU. Existing frameworks such as OpenVINO and ONNX Runtime often use opaque compilation pipelines, limited pass-level visibility, and weak buffer management, which can lead to higher compilation cost and runtime overhead. Forge-UGC addresses this with a hardware-agnostic design that separates graph capture, optimization, intermediate representation lowering, and backend scheduling. Phase 1 captures graphs with torch.export at the ATen operator level, supporting modern transformer components such as rotary position embeddings, grouped-query attention, and SwiGLU without manual decomposition. Phase 2 applies six optimization passes: dead code elimination, common subexpression elimination, constant folding, attention fusion, operator fusion, and layout optimization, reducing graph node count by 14.2 to 21.9%. Phase 3 lowers the optimized graph into a typed intermediate representation with explicit virtual register assignments. Phase 4 performs liveness analysis, linear-scan buffer allocation, reducing peak buffer count by 30 to 48%, and device-affinity scheduling, reducing NPU-CPU transitions by 42 to 65%. Across six model families ranging from 125M to 8B parameters, evaluated on WikiText-103 and GLUE, Forge-UGC delivers 6.9 to 9.2x faster compilation than OpenVINO and ONNX Runtime, 18.2 to 35.7% lower inference latency, and 30.2 to 40.9% lower energy per inference. Fidelity is preserved, with max absolute logit differences below 2.1e-5 and KL divergence below 8.4e-9. We also introduce Fusion Gain Ratio, Compilation Efficiency Index, and per-pass execution profiling for systematic evaluation of NPU compilation pipelines.
- Abstract(参考訳): We present Forge-UGC (FX Optimization and Register-Graph Engine for Universal Graph Compilation), a four-phase compiler for transformer deployment on heterogeneous accelerator hardware, confirmeded on Intel AI Boost NPU。
OpenVINOやONNX Runtimeといった既存のフレームワークでは、不透明なコンパイルパイプライン、限られたパスレベルの可視性、弱いバッファ管理が使われており、コンパイルコストと実行時のオーバーヘッドが増大する可能性がある。
Forge-UGCは、グラフキャプチャ、最適化、中間表現の低下、バックエンドスケジューリングを分離するハードウェアに依存しない設計でこの問題に対処する。
フェーズ1は、ATen演算子レベルでトーチ.exportでグラフをキャプチャし、回転位置埋め込み、グループ化されたクエリアテンション、手動分解なしでSwiGLUなどのモダンなトランスフォーマーコンポーネントをサポートする。
フェーズ2では、デッドコード除去、共通部分表現除去、定数折り畳み、アテンション融合、演算子融合、レイアウト最適化の6つの最適化が適用され、グラフノード数は14.2から21.9%削減された。
フェーズ3は、最適化されたグラフを明示的な仮想レジスタ割り当てを伴う型付き中間表現に下げる。
フェーズ4では、ライブネス分析、線形スキャンバッファ割り当て、ピークバッファカウントの30~48%削減、デバイス親和性スケジューリング、NPU-CPU遷移の42~65%削減を行う。
WikiText-103とGLUEで評価された125Mから8Bパラメータの6つのモデルファミリーの中で、Forge-UGCはOpenVINOとONNX Runtimeよりも6.9から9.2倍高速なコンパイルを実現し、18.2から35.7%低い推論レイテンシ、30.2から40.9%低い推論エネルギーを提供する。
忠実度は保存され、絶対対数差は2.1e-5以下、KLは8.4e-9以下である。
また、NPUコンパイルパイプラインの系統的評価のために、Fusion Gain Ratio、コンパイル効率指数、パスごとの実行プロファイリングも導入する。
関連論文リスト
- BWTA: Accurate and Efficient Binarized Transformer by Algorithm-Hardware Co-design [71.97035034203275]
バイナライゼーションにおけるゼロ点歪みを解析し,BWTA量子化方式を提案する。
本稿では,Smooth Multi-Stage Quantizationを提案し,レベルワイド・デグラデーション・ストラテジーとMagnitude Alignment Projection Factorを組み合わせた。
実験の結果、BWTAはTransformerベースのモデルに対して、GLUEでは平均3.5%、タスクでは2%未満の精度でフル精度のパフォーマンスにアプローチしていることがわかった。
論文 参考訳(メタデータ) (2026-04-05T04:25:07Z) - GPU-Accelerated Optimization of Transformer-Based Neural Networks for Real-Time Inference [0.0]
本稿では,混合精度最適化を用いたNVIDIARTを用いた変圧器モデルのためのGPU加速型推論パイプラインの設計と評価を行う。
このシステムはCPUベースラインの64.4倍のスピードアップ、シングルサンプル推論の10ms以下のレイテンシ、メモリ使用量の63%削減を実現している。
論文 参考訳(メタデータ) (2026-03-30T17:27:33Z) - FastUSP: A Multi-Level Collaborative Acceleration Framework for Distributed Diffusion Model Inference [11.772150619675527]
Unified Sequence Parallelism (USP) は分散アテンション計算のための最先端のアプローチとして登場した。
既存のUSP実装は、カーネルの起動オーバーヘッドと準通信スケジューリングに悩まされている。
コンパイルレベル最適化,通信レベル最適化,演算子レベル最適化を統合したフレームワークである textbfFastUSP を提案する。
論文 参考訳(メタデータ) (2026-02-11T15:19:57Z) - BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models [56.504879072674015]
本稿では,ビットプレーンとスカラー係数による可変量子化グリッドを構成するビットプレーン分解量子化(BPDQ)を提案する。
BPDQは、1つのGTX 3090上でQwen2.5-72Bを83.85%のGSM8Kの精度で提供できる(ただし16ビットでは90.83%)。
論文 参考訳(メタデータ) (2026-02-04T02:54:37Z) - DPVO-QAT++: Heterogeneous QAT and CUDA Kernel Fusion for High-Performance Deep Patch Visual Odometry [0.8122270502556375]
本稿では,DPVO-QAT++ (DPVO-QAT++: Heterogeneous QAT and Kernel Fusion for High-Performance Deep Patch Visual Odometry)を提案する。
論文 参考訳(メタデータ) (2025-11-16T15:38:25Z) - FPQVAR: Floating Point Quantization for Visual Autoregressive Model with FPGA Hardware Co-design [5.4815337424005355]
視覚自己回帰(VAR)モデリングは、次世代の予測から次世代の予測へ、画像生成のパラダイムシフトを象徴している。
メモリと計算コストを削減するため、VARのための効率的な後学習浮動小数点(FP)量子化フレームワークであるFPQvarを提案する。
AMD-Xilinx VCK190 FPGA上の我々のアクセラレータは、整数ベースのアクセラレータよりも3.1倍高い1.1イメージ/sのスループットを達成する。
論文 参考訳(メタデータ) (2025-05-22T07:47:51Z) - Speedy MASt3R [68.47052557089631]
MASt3Rは、DUSt3Rを活用して高速な相互マッチング方式を導入することで、画像マッチングを3Dタスクとして再定義する。
高速MASt3Rは、精度を犠牲にすることなく、推論時間(画像ペアあたり198msから91ms)を54%削減する。
この進歩により、リアルタイムな3D理解が可能になり、複合現実ナビゲーションや大規模3Dシーン再構築といったアプリケーションに恩恵をもたらす。
論文 参考訳(メタデータ) (2025-03-13T03:56:22Z) - Graph Transformers for Large Graphs [57.19338459218758]
この研究は、モデルの特徴と重要な設計制約を識別することに焦点を当てた、単一の大規模グラフでの表現学習を前進させる。
この研究の重要な革新は、局所的な注意機構と組み合わされた高速な近傍サンプリング技術の作成である。
ogbn-products と snap-patents の3倍の高速化と16.8%の性能向上を報告し、ogbn-100M で LargeGT を5.9% の性能改善で拡張した。
論文 参考訳(メタデータ) (2023-12-18T11:19:23Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Phases, Modalities, Temporal and Spatial Locality: Domain Specific ML
Prefetcher for Accelerating Graph Analytics [7.52191887022819]
ドメイン固有モデルを用いたグラフ解析のためのMLベースのPrefetcherであるMPGraphを提案する。
MPGraphの新しい3つの最適化: 位相遷移のソフト検出、アクセスと時間前処理のための位相固有多モードモデル。
CSTを使用すると、MPGraphは12.52-21.23%のIPC改善を実現し、最先端の非MLプレフェッチャーBOを7.5-12.03%、MLベースのプレフェッチーVoyagerとTransFetchを3.27-4.58%上回った。
論文 参考訳(メタデータ) (2022-12-10T09:14:44Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。