Fugu-MT 論文翻訳(概要): Hardware Software Optimizations for Fast Model Recovery on Reconfigurable Architectures

論文の概要: Hardware Software Optimizations for Fast Model Recovery on Reconfigurable Architectures

arxiv url: http://arxiv.org/abs/2512.06113v1
Date: Fri, 05 Dec 2025 19:38:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-09 22:03:54.197599
Title: Hardware Software Optimizations for Fast Model Recovery on Reconfigurable Architectures
Title（参考訳）: 再構成可能なアーキテクチャ上での高速モデル回復のためのハードウェアソフトウェア最適化
Authors: Bin Xu, Ayan Banerjee, Sandeep Gupta,
Abstract要約: 本稿では,FPGAを高速化したMRフレームワークであるMERINDAについて述べる。一般的なMRワークロードでは、MERINDAはFPGAベースのLCCベースラインよりも6.3倍少ないサイクルを提供する。
参考スコア（独自算出の注目度）: 4.058950730052848
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Model Recovery (MR) is a core primitive for physical AI and real-time digital twins, but GPUs often execute MR inefficiently due to iterative dependencies, kernel-launch overheads, underutilized memory bandwidth, and high data-movement latency. We present MERINDA, an FPGA-accelerated MR framework that restructures computation as a streaming dataflow pipeline. MERINDA exploits on-chip locality through BRAM tiling, fixed-point kernels, and the concurrent use of LUT fabric and carry-chain adders to expose fine-grained spatial parallelism while minimizing off-chip traffic. This hardware-aware formulation removes synchronization bottlenecks and sustains high throughput across the iterative updates in MR. On representative MR workloads, MERINDA delivers up to 6.3x fewer cycles than an FPGA-based LTC baseline, enabling real-time performance for time-critical physical systems.
Abstract（参考訳）: モデルリカバリ(MR)は、物理AIとリアルタイムデジタルツインのコアプリミティブである。しかしGPUは、反復的依存関係、カーネル起動オーバーヘッド、未使用メモリ帯域幅、高データ移動遅延のために、MRを非効率に実行することが多い。本稿では,FPGAを高速化したMRフレームワークであるMERINDAについて述べる。 MERINDAは、BRAMタイリング、固定ポイントカーネル、LUTファブリックとキャリーチェイン加算器の同時使用によるオンチップの局所性を利用して、オフチップトラフィックを最小化しながら、きめ細かい空間並列性を露呈する。このハードウェア対応の定式化は、同期ボトルネックを排除し、MRの反復的な更新をまたいだ高いスループットを維持する。典型的なMRワークロードでは、MERINDAはFPGAベースのLCCベースラインよりも6.3倍少ないサイクルを提供し、時間クリティカルな物理システムのリアルタイムパフォーマンスを実現する。

関連論文リスト

Model Recovery at the Edge under Resource Constraints for Physical AI [4.415937510184061]
我々は,反復解法をNODEと等価な並列化可能なニューラルアーキテクチャに置き換える,FPGA加速モデル回復フレームワークを提案する。 MERINDAはモバイルGPUの約11倍のDRAM使用率と2.2倍のランタイムを実現している。
論文参考訳（メタデータ） (2025-12-01T23:54:23Z)
Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。 BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文参考訳（メタデータ） (2025-11-04T01:15:44Z)
FastCar: Cache Attentive Replay for Fast Auto-Regressive Video Generation on the Edge [60.000984252907195]
自動回帰(AR)モデルは、サンプリング効率が優れているため、近年、視覚生成タスクにおいて有望であることが示されている。ビデオ生成は、コヒーレントな時間フレームを生成するために、かなり多くのトークンを必要とする。我々は,時間的冗長性を探究して,ARビデオ生成のデコードフェーズを高速化する textbfFastCar フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-17T05:00:39Z)
MINIMALIST: switched-capacitor circuits for efficient in-memory computation of gated recurrent units [0.4941855521192951]
リカレントニューラルネットワーク(RNN)は、時間的シーケンスデータの処理における長年の候補である。トレーニングパラダイムの最近の進歩は、今では新しい世代の効率的なRNNに影響を与えている。最小ゲートリカレントユニット(GRU)に基づく合理化およびハードウェア互換アーキテクチャを提案する。
論文参考訳（メタデータ） (2025-05-13T14:13:41Z)
TeleRAG: Efficient Retrieval-Augmented Generation Inference with Lookahead Retrieval [16.65446281180872]
Retrieval-augmented Generation (RAG)は、大規模な言語モデル(LLM)を外部データソースに拡張する。現代のRAGパイプラインは大規模なデータストアに依存しており、レイテンシに敏感なデプロイメントにおけるシステムの課題につながっている。我々は,GPUメモリの必要量を最小限に抑え,RAGレイテンシを低減する効率的な推論システムであるTeleRAGを提案する。
論文参考訳（メタデータ） (2025-02-28T11:32:22Z)
Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文参考訳（メタデータ） (2024-07-15T17:55:42Z)
Model-Architecture Co-Design for High Performance Temporal GNN Inference on FPGA [5.575293536755127]
実世界のアプリケーションは、リアルタイムストリーミング動的グラフに対して高いパフォーマンスの推論を必要とする。本稿では,FPGA上でのメモリベースTGNNの推論のための新しいモデルアーキテクチャ共設計を提案する。我々は、知識蒸留を用いて単純化されたモデルを訓練し、元のモデルと同じような精度でビザビザビザビザを保証します。
論文参考訳（メタデータ） (2022-03-10T00:24:47Z)
Reconfigurable Low-latency Memory System for Sparse Matricized Tensor Times Khatri-Rao Product on FPGA [3.4870723728779565]
Sparse Matricized Times Khatri-Rao Product (MTTKRP) はテンソル計算において最も高価なカーネルの一つである。本稿では,MTTKRPのデータ構造の空間的および時間的局所性を探索する多面記憶システムについて述べる。本システムでは,キャッシュオンリーとDMAオンリーのメモリシステムと比較して,2倍,1.26倍の高速化を実現している。
論文参考訳（メタデータ） (2021-09-18T08:19:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。