論文の概要: Accelerating Latency-Critical Applications with AI-Powered Semi-Automatic Fine-Grained Parallelization on SMT Processors
- arxiv url: http://arxiv.org/abs/2509.00883v1
- Date: Sun, 31 Aug 2025 14:51:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.446007
- Title: Accelerating Latency-Critical Applications with AI-Powered Semi-Automatic Fine-Grained Parallelization on SMT Processors
- Title(参考訳): SMTプロセッサ上での半自動微粒化並列化によるレイテンシクリティカル応用の高速化
- Authors: Denis Los, Igor Petushkov,
- Abstract要約: 同時マルチスレッディング(SMT)技術は、レイテンシクリティカルなアプリケーションの重いスレッドではほとんど使われない。
AIを利用した並列化アドバイザであるAiraを紹介する。
遅延クリティカルなベンチマークをAiraとRelicフレームワークで並列化することにより,ジオ平均性能が17%向上したことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latency-critical applications tend to show low utilization of functional units due to frequent cache misses and mispredictions during speculative execution in high-performance superscalar processors. However, due to significant impact on single-thread performance, Simultaneous Multithreading (SMT) technology is rarely used with heavy threads of latency-critical applications. In this paper, we explore utilization of SMT technology to support fine-grained parallelization of latency-critical applications. Following the advancements in the development of Large Language Models (LLMs), we introduce Aira, an AI-powered Parallelization Adviser. To implement Aira, we extend AI Coding Agent in Cursor IDE with additional tools connected through Model Context Protocol, enabling end-to-end AI Agent for parallelization. Additional connected tools enable LLM-guided hotspot detection, collection of dynamic dependencies with Dynamic Binary Instrumentation, SMT-aware performance simulation to estimate performance gains. We apply Aira with Relic parallel framework for fine-grained task parallelism on SMT cores to parallelize latency-critical benchmarks representing real-world applications used in industry. We show 17% geomean performance gain from parallelization of latency-critical benchmarks using Aira with Relic framework.
- Abstract(参考訳): 遅延クリティカルなアプリケーションは、高性能スーパースカラープロセッサの投機実行中に頻繁にキャッシュミスや誤予測のために、機能単位の低利用を示す傾向にある。
しかし、シングルスレッド性能に大きな影響を与えるため、SMT技術はレイテンシクリティカルなアプリケーションの重いスレッドではほとんど使われない。
本稿では,レイテンシクリティカルなアプリケーションの詳細な並列化を支援するため,SMT技術の利用について検討する。
LLM(Large Language Models)の開発に続き,AIを利用した並列化アドバイザであるAiraを紹介する。
Airaを実装するために、我々は、Model Context Protocolを介して接続された追加ツールでCursor IDEのAIコーディングエージェントを拡張し、エンドツーエンドのAIエージェントを並列化できるようにしました。
追加のコネクテッドツールにより、LLM誘導ホットスポット検出、ダイナミックバイナリインスツルメンテーションによる動的依存関係の収集、パフォーマンス向上を推定するためのSMT対応パフォーマンスシミュレーションが可能になる。
本研究では,SMTコア上でのタスク並列処理を並列化するために,Relic並列フレームワークをAiraに適用し,業界で使用されている実世界のアプリケーションを表す遅延クリティカルベンチマークを並列化する。
遅延クリティカルなベンチマークをAiraとRelicフレームワークで並列化することにより,ジオ平均性能が17%向上したことを示す。
関連論文リスト
- ASPD: Unlocking Adaptive Serial-Parallel Decoding by Exploring Intrinsic Parallelism in LLMs [34.477777651648914]
大規模言語モデル(LLM)は、自動回帰デコードパラダイムのため、推論遅延の大きな問題を生じさせる。
本稿では、並列化可能なデータの自動構築と効率的な並列化機構の2つの課題に対処する適応シリアル-パラレルデコーディング(ASPD)を提案する。
我々のフレームワークは、効率的なLCM並列推論のための基盤となるベンチマークを設定し、AIによるカスタマーサービスボットや回答検索エンジンのようなレイテンシに敏感なアプリケーションへのデプロイの道を開く。
論文 参考訳(メタデータ) (2025-08-12T12:35:55Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - WDMoE: Wireless Distributed Mixture of Experts for Large Language Models [68.45482959423323]
大規模言語モデル(LLM)は様々な自然言語処理タスクにおいて大きな成功を収めた。
本稿では,無線ネットワーク上での基地局(BS)およびモバイルデバイスにおけるエッジサーバ間のLLMの協調展開を実現するために,無線分散Mixture of Experts(WDMoE)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-11-11T02:48:00Z) - Enabling Efficient On-Device Fine-Tuning of LLMs Using Only Inference Engines [17.539008562641303]
大規模言語モデル(LLM)は現在、大規模なクラウドサーバ上で事前トレーニングされ、微調整されている。
次のフロンティアはLLMパーソナライズであり、ファンデーションモデルをユーザ/タスク固有のデータで微調整することができる。
リソース制約のあるエッジデバイスの微調整は、かなりのメモリと計算要求のために大きな課題となる。
論文 参考訳(メタデータ) (2024-09-23T20:14:09Z) - TurboSpec: Closed-loop Speculation Control System for Optimizing LLM Serving Goodput [37.56866491624234]
大規模言語モデル (LLM) システムは、効率的なサービスを実現するために、同時ユーザー要求をバッチ化する。
本稿では,実行環境を自動的にプロファイリングする投機制御システムTurboSpecを提案する。
さまざまなワークロードとハードウェア構成にまたがって、その効果を実証します。
論文 参考訳(メタデータ) (2024-06-20T07:43:33Z) - A Unified Cloud-Enabled Discrete Event Parallel and Distributed
Simulation Architecture [0.7949705607963994]
クラウドにシミュレーションをデプロイするのに十分な柔軟性を備えた並列分散M&Sアーキテクチャを提案する。
我々のフレームワークは、離散イベントシステム仕様(DEVS)の形式に基づいている。
並列および分散フレームワークのパフォーマンスは、xDEVS M&Sツールと最大8つの計算ノードを持つDEVStoneベンチマークを用いてテストされる。
論文 参考訳(メタデータ) (2023-02-22T09:47:09Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Reproducible Performance Optimization of Complex Applications on the
Edge-to-Cloud Continuum [55.6313942302582]
エッジ・ツー・クラウド・コンティニュム上でのリアルタイムアプリケーションの最適化を支援する手法を提案する。
提案手法は, 制御されたテストベッド環境において, その動作を理解するための厳密な構成解析に頼っている。
当社の方法論はEdge-to-Cloud Continuumの他のアプリケーションに一般化することができる。
論文 参考訳(メタデータ) (2021-08-04T07:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。