Fugu-MT 論文翻訳(概要): MC$^2$A: Enabling Algorithm-Hardware Co-Design for Efficient Markov Chain Monte Carlo Acceleration

論文の概要: MC$^2$A: Enabling Algorithm-Hardware Co-Design for Efficient Markov Chain Monte Carlo Acceleration

arxiv url: http://arxiv.org/abs/2507.12935v1
Date: Thu, 17 Jul 2025 09:20:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-18 20:10:24.428306
Title: MC$^2$A: Enabling Algorithm-Hardware Co-Design for Efficient Markov Chain Monte Carlo Acceleration
Title（参考訳）: MC$^2$A: 効率的なマルコフ連鎖モンテカルロ加速のためのアルゴリズムハードウェア共設計
Authors: Shirui Zhao, Jun Yin, Lingyun Yao, Martin Andraud, Wannes Meert, Marian Verhelst,
Abstract要約: textbfMC$2$AはMCMCアクセラレーションのためのアルゴリズムハードウェアの共同設計フレームワークである。 textbfMC$2$Aは、CPU、GPU、TPU、最先端MCMCアクセラレータと比較して、全体的な307.6times$, $1.4times$, $2.0times$, 8,4.2times$スピードアップを達成する。
参考スコア（独自算出の注目度）: 9.064931467874807
License: http://creativecommons.org/licenses/by/4.0/
Abstract: An increasing number of applications are exploiting sampling-based algorithms for planning, optimization, and inference. The Markov Chain Monte Carlo (MCMC) algorithms form the computational backbone of this emerging branch of machine learning. Unfortunately, the high computational cost limits their feasibility for large-scale problems and real-world applications, and the existing MCMC acceleration solutions are either limited in hardware flexibility or fail to maintain efficiency at the system level across a variety of end-to-end applications. This paper introduces \textbf{MC$^2$A}, an algorithm-hardware co-design framework, enabling efficient and flexible optimization for MCMC acceleration. Firstly, \textbf{MC$^2$A} analyzes the MCMC workload diversity through an extension of the processor performance roofline model with a 3rd dimension to derive the optimal balance between the compute, sampling and memory parameters. Secondly, \textbf{MC$^2$A} proposes a parametrized hardware accelerator architecture with flexible and efficient support of MCMC kernels with a pipeline of ISA-programmable tree-structured processing units, reconfigurable samplers and a crossbar interconnect to support irregular access. Thirdly, the core of \textbf{MC$^2$A} is powered by a novel Gumbel sampler that eliminates exponential and normalization operations. In the end-to-end case study, \textbf{MC$^2$A} achieves an overall {$307.6\times$, $1.4\times$, $2.0\times$, $84.2\times$} speedup compared to the CPU, GPU, TPU and state-of-the-art MCMC accelerator. Evaluated on various representative MCMC workloads, this work demonstrates and exploits the feasibility of general hardware acceleration to popularize MCMC-based solutions in diverse application domains.
Abstract（参考訳）: より多くのアプリケーションが、計画、最適化、推論のためにサンプリングベースのアルゴリズムを利用している。 Markov Chain Monte Carlo (MCMC)アルゴリズムは、この機械学習の新しいブランチの計算バックボーンを形成する。残念ながら、高い計算コストは大規模問題や実世界のアプリケーションの実現可能性を制限するものであり、既存のMCMCアクセラレーションソリューションはハードウェアの柔軟性に制限されるか、様々なエンド・ツー・エンド・エンド・アプリケーションでシステムレベルで効率を維持するのに失敗する。本稿では,MCMCアクセラレーションの効率的かつ柔軟な最適化を実現するアルゴリズム・ハードウェア協調設計フレームワークである \textbf{MC$^2$A} を紹介する。まず,3次元のプロセッサ性能ルーフラインモデルの拡張によってMCMCのワークロードの多様性を分析し,計算パラメータ,サンプリングパラメータ,メモリパラメータの最適バランスを導出する。第2に,<textbf{MC$^2$A} は ISA プログラム可能なツリー構造化処理ユニット,再構成可能なサンプリング器,不規則アクセスをサポートするクロスバー相互接続を備えた MCMC カーネルのフレキシブルかつ効率的なサポートを備えたパラメタライズドハードウェアアクセラレータアーキテクチャを提案する。第3に、textbf{MC$^2$A} のコアは、指数的および正規化操作を排除した新しいガンベルサンプリング器によって駆動される。エンドツーエンドのケーススタディにおいて、 \textbf{MC$^2$A} は、CPU、GPU、TPU、最先端MCMCアクセラレータと比較して、全体的な {307.6\times$, $1.4\times$, $2.0\times$, 8,4.2\times$} のスピードアップを達成する。様々な代表的MCMCワークロードに基づいて評価し、様々なアプリケーションドメインでMCMCベースのソリューションを普及させるために、一般的なハードウェアアクセラレーションの実現可能性を実証し、活用する。

関連論文リスト

Fast Monte Carlo Tree Diffusion: 100x Speedup via Parallel Sparse Planning [61.694143925237206]
最近提案されたモンテカルロ木拡散(MCTD)は,木に基づく探索と拡散を組み合わせて,有望な解を提供する。 Fast-MCTDは、遅延ツリー更新と冗長性認識による並列ロールアウトを可能にするParallel MCTDと、軌道粗大化によるロールアウト長の削減を行うSparse MCTDの2つの技術を統合する。実験により、Fast-MCTDは標準MCTDよりも最大100倍の高速化を実現し、計画性能を維持または改善した。
論文参考訳（メタデータ） (2025-06-11T08:17:40Z)
Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文参考訳（メタデータ） (2025-05-28T14:03:02Z)
D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving [14.607254882119507]
専門家(MoE)モデルの組み合わせは、大きな言語モデル(LLM)のスパース変種である。メリットはあるものの、リソース制約のあるエッジデバイスにデプロイするにはMoEは高価すぎる。 D$2$MoEは,各専門家に最適なビット幅を動的に割り当てることで,多様なタスク要求に適合するアルゴリズム・システム協調設計フレームワークである。
論文参考訳（メタデータ） (2025-04-17T05:37:35Z)
Efficiently Vectorized MCMC on Modern Accelerators [1.952427698056566]
有限状態マシン(FSM)のフレームワークを用いて、$textttvmap$のようなツールでベクトル化する場合の同期オーバーヘッドを回避する方法として、シングルチェーンMCMCアルゴリズムを設計する方法を示す。我々は、Slice Smpling、HMC-NUTS、Delayed Rejectionなど、FSMとしていくつかの一般的なMCMCアルゴリズムを実装し、最大1桁のスピードアップを示す。
論文参考訳（メタデータ） (2025-03-20T16:07:14Z)
AutoStep: Locally adaptive involutive MCMC [51.186543293659376]
本稿では,対象分布の局所的幾何に適応した各イテレーションで適切なステップサイズを選択する,新しいインボリューティブMCMC法であるAutoStep MCMCを提案する。本稿では,AutoStep MCMCと最先端の手法が競合することを示す。
論文参考訳（メタデータ） (2024-10-24T17:17:11Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
Accelerating Look-ahead in Bayesian Optimization: Multilevel Monte Carlo is All you Need [5.283807323380133]
マルチレベルモンテカルロ(MLCBOC)は標準MC収束率を達成することができる。理論的研究は、2段階および3段階のルックアヘッド獲得関数の近似改善に焦点を当てている。本研究は数値的に検証し,いくつかのベンチマーク例でBOに対するCBOCの利点を示す。
論文参考訳（メタデータ） (2024-02-03T10:24:30Z)
Efficient Controllable Multi-Task Architectures [85.76598445904374]
本稿では,共有エンコーダとタスク固有デコーダからなるマルチタスクモデルを提案する。我々のキーとなる考え方は、タスク固有のデコーダの容量を変化させ、計算コストの総和を制御し、タスクの重要度を制御することである。これにより、与えられた予算に対してより強力なエンコーダを許可し、計算コストの制御を高め、高品質のスリム化サブアーキテクチャを提供することにより、全体的な精度を向上させる。
論文参考訳（メタデータ） (2023-08-22T19:09:56Z)
M3ICRO: Machine Learning-Enabled Compact Photonic Tensor Core based on PRogrammable Multi-Operand Multimode Interference [18.0155410476884]
標準光学部品に基づく光テンソルコア(PTC)の設計は、空間フットプリントが大きいため、スケーラビリティと計算密度を損なう。 M3ICROというプログラム可能なマルチモード干渉(MOMMI)デバイスを用いた超コンパクトPSCを提案する。 M3ICROは、フットプリントが3.4-9.6倍、1.6-4.4倍、計算密度が10.6-42倍、システムスループットが3.7-12倍、ノイズロバスト性が優れている。
論文参考訳（メタデータ） (2023-05-31T02:34:36Z)
Efficient Micro-Structured Weight Unification and Pruning for Neural Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文参考訳（メタデータ） (2021-06-15T17:22:59Z)
Involutive MCMC: a Unifying Framework [64.46316409766764]
iMCMCでは,幅広いMCMCアルゴリズムについて述べる。我々は、新しいMCMCアルゴリズムを開発するための設計原則として使用できる多くのトリックを定式化する。後者は、既知の可逆MCMCアルゴリズムをより効率的な可逆アルゴリズムに変換する2つの例で示す。
論文参考訳（メタデータ） (2020-06-30T10:21:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。