論文の概要: PACOX: A FPGA-based Pauli Composer Accelerator for Pauli String Computation
- arxiv url: http://arxiv.org/abs/2601.04827v1
- Date: Thu, 08 Jan 2026 11:04:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.173272
- Title: PACOX: A FPGA-based Pauli Composer Accelerator for Pauli String Computation
- Title(参考訳): PACOX: Pauli 文字列計算のためのFPGAベースの Pauli Composer Accelerator
- Authors: Tran Xuan Hieu Le, Tuan Hai Vu, Vu Trung Duong Le, Hoai Luan Pham, Yasuhiko Nakashima,
- Abstract要約: パウリ弦はハイブリッド量子古典アルゴリズムにおける計算プリミティブである。
PACOXは、パウリ弦のためのFPGAベースのアクセラレーターである。
実験によると、PACOXは最先端のCPUベースの手法と比較して最大100倍の高速化を実現している。
- 参考スコア(独自算出の注目度): 0.8481798330936976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pauli strings are a fundamental computational primitive in hybrid quantum-classical algorithms. However, classical computation of Pauli strings suffers from exponential complexity and quickly becomes a performance bottleneck as the number of qubits increases. To address this challenge, this paper proposes the Pauli Composer Accelerator (PACOX), the first dedicated FPGA-based accelerator for Pauli string computation. PACOX employs a compact binary encoding with XOR-based index permutation and phase accumulation. Based on this formulation, we design a parallel and pipelined processing element (PE) cluster architecture that efficiently exploits data-level parallelism on FPGA. Experimental results on a Xilinx ZCU102 FPGA show that PACOX operates at 250 MHz with a dynamic power consumption of 0.33 W, using 8,052 LUTs, 10,934 FFs, and 324 BRAMs. For Pauli strings of up to 19 qubits, PACOX achieves speedups of up to 100 times compared with state-of-the-art CPU-based methods, while requiring significantly less memory and achieving a much lower power-delay product. These results demonstrate that PACOX delivers high computational speed with superior energy efficiency for Pauli-based workloads in hybrid quantum-classical systems.
- Abstract(参考訳): パウリ弦はハイブリッド量子古典アルゴリズムにおける基本的な計算プリミティブである。
しかし、パウリ弦の古典的な計算は指数複雑性に悩まされ、量子ビットの数が増加するにつれてすぐに性能ボトルネックとなる。
この課題に対処するため,本研究では,Pauli文字列計算のためのFPGAベースのアクセラレータであるPauli Composer Accelerator (PACOX)を提案する。
PACOXはXORベースのインデックス置換と位相蓄積を伴うコンパクトなバイナリエンコーディングを採用している。
この定式化に基づいて、FPGA上のデータレベルの並列性を効率的に活用する並列処理要素(PE)クラスタアーキテクチャを設計する。
Xilinx ZCU102 FPGAの実験結果によると、PACOXは8,052 LUT、10,934 FF、および324 BRAMを使用して、電力消費0.33Wの250MHzで動作する。
最大19キュービットのPauli文字列の場合、PACOXは最先端のCPUベースの手法と比較して最大100倍の高速化を実現し、メモリを著しく削減し、より低遅延の製品を実現する。
これらの結果から、PACOXはハイブリッド量子古典システムにおいて、パウリベースのワークロードに対してより優れたエネルギー効率で高速な計算速度を提供することを示した。
関連論文リスト
- PauliEngine: High-Performant Symbolic Arithmetic for Quantum Operations [39.36424353588699]
PauliEngineは高性能なC++フレームワークで、Pauli文字列、演算子、シンボル位相追跡、構造変換のための効率的なプリミティブを提供する。
PauliEngineは数値係数とシンボル係数の両方をサポートし、Pythonインターフェースを介してアクセスすることができる。
論文 参考訳(メタデータ) (2026-01-05T16:00:44Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - Pushing the Envelope of LLM Inference on AI-PC [45.081663877447816]
ウルトラロービットモデル(1/1.58/2-bit)は、同じモデルサイズを用いて、その完全精度のモデルのパープレキシティとエンドタスクのパフォーマンスとを一致させる。
最先端の推論ランタイム(例えばbitnet)の計算効率は未調査のままである。
まず1ビットと2ビットのマイクロカーネルを設計・実装し,計算効率の最大化を実現した。
我々は、現在のSOTAランタイムビットネットよりも優れた2ビットモデルを用いて、エンドツーエンドの推論結果を示す。
論文 参考訳(メタデータ) (2025-08-08T23:33:38Z) - On-Device Qwen2.5: Efficient LLM Inference with Model Compression and Hardware Acceleration [1.9965524232168244]
本稿では,Xilinx Kria KV260エッジプラットフォーム上にQwen2.5-0.5Bモデルをデプロイするための効率的なフレームワークを提案する。
我々は,計算集約的な演算をFPGAにインテリジェントにオフロードし,CPUを軽量なタスクに活用するハイブリッド実行戦略を提案する。
本フレームワークは,従来のモデルと比較して55.08%のモデル圧縮率を実現し,5.1トークン/秒で出力し,2.8トークン/秒のベースライン性能を上回った。
論文 参考訳(メタデータ) (2025-04-24T08:50:01Z) - HEPPO-GAE: Hardware-Efficient Proximal Policy Optimization with Generalized Advantage Estimation [0.0]
HEPPO-GAEはFPGAベースのアクセラレーターで、近似ポリシー最適化における一般化アドバンテージ推定段階を最適化するために設計された。
鍵となる革新は、動的報酬標準化と値のブロック標準化を組み合わせた戦略的標準化技術であり、8ビット均一量子化が続く。
私たちのシングルチップソリューションは通信遅延とスループットのボトルネックを最小限にし、PPOトレーニングの効率を大幅に向上します。
論文 参考訳(メタデータ) (2025-01-22T08:18:56Z) - Design of an FPGA-Based Neutral Atom Rearrangement Accelerator for Quantum Computing [1.003635085077511]
ニュートラル原子は量子コンピュータを実装するための有望な技術として登場した。
本稿では,分割・対数戦略を応用し,複数の原子の同時移動を可能にする新しい四分法に基づく再配置アルゴリズムを提案する。
これは原子再構成のための最初のハードウェアアクセラレーションであり、処理時間を著しく短縮する。
論文 参考訳(メタデータ) (2024-11-19T10:38:21Z) - On the Constant Depth Implementation of Pauli Exponentials [49.48516314472825]
任意の長さの $Zotimes n$指数を$mathcalO(n)$ ancillae と 2体 XX と ZZ の相互作用を用いて一定深さの回路に分解する。
クビットリサイクルの恩恵を受ける回路の書き直し規則を導入し,本手法の正しさを実証する。
論文 参考訳(メタデータ) (2024-08-15T17:09:08Z) - Design optimization for high-performance computing using FPGA [0.0]
我々は、CIFARでトレーニングされたResNet20を使用して、Tensil AIのオープンソース推論アクセラレーターを最大性能に最適化する。
CIFARテストデータセットを実行すると、元の32ビット浮動小数点から丸めると、ほとんど精度が低下する。
提案した加速器は、100MHzで5.21Wのオンチップ消費電力を持つ21.12ギガ/秒(GOP/s)のスループットを実現する。
論文 参考訳(メタデータ) (2023-04-24T22:20:42Z) - RAMP: A Flat Nanosecond Optical Network and MPI Operations for
Distributed Deep Learning Systems [68.8204255655161]
我々は、RAMPと呼ばれるナノ秒再構成による、ほぼスケール、全2分割帯域、オールツーオール、シングルホップ、オール光学ネットワークアーキテクチャを導入する。
RAMPは、最大65,536ノードで1ノードあたり12.8Tbpsの大規模分散並列コンピューティングシステムをサポートしている。
論文 参考訳(メタデータ) (2022-11-28T11:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。