Fugu-MT 論文翻訳(概要): Tessera: Secure, Near-Line-Rate Weight Streaming for UMA Edge Accelerators

論文の概要: Tessera: Secure, Near-Line-Rate Weight Streaming for UMA Edge Accelerators

arxiv url: http://arxiv.org/abs/2604.23205v1
Date: Sat, 25 Apr 2026 08:29:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-28 17:12:07.208446
Title: Tessera: Secure, Near-Line-Rate Weight Streaming for UMA Edge Accelerators
Title（参考訳）: Tessera: UMAエッジアクセラレータのためのセキュアでニアラインの軽量ストリーミング
Authors: Animan Naskar,
Abstract要約: Tesseraは、UMAエッジアクセラレータ上のインライン、キャッシュライン重み復号化のためのリファレンスアーキテクチャである。設計は64バイトのAXIバーストをインターセプトし、AES-256-CTRキーストリームをDRAMフェッチと並列に計算する。理論的メモリ帯域幅天井の98.4%をテセラが達成していることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deploying proprietary Deep Neural Networks (DNNs) on commodity edge devices demands hardware-backed Digital Rights Management (DRM) capable of withstanding both software-level and physical adversaries. In Unified Memory Architecture (UMA) systems, the host CPU and Neural Processing Unit (NPU) share physical DRAM, leaving plaintext model weights directly readable by a compromised OS kernel. Existing defenses fail in this constrained setting: trusted execution environments monopolize scarce memory with permanently reserved regions, while full-memory encryption operates at page granularity. This forces the system to fetch massive 4 KB memory pages for sub-page tensor tiles, severely crippling bandwidth. We present Tessera, a reference architecture for inline, cache-line granularity weight decryption on UMA edge accelerators. The design intercepts 64-byte AXI bursts, computing AES-256-CTR keystreams in parallel with DRAM fetches. This streams plaintext directly into isolated NPU SRAM, creating a transient memory footprint confined to the active tile and eliminating the need for permanent memory carve-outs. Measurements across three distinct SoC platforms demonstrate that this parallelization hides cryptographic latency behind standard DRAM fetch times, a condition that holds even under worst-case timing variations. Consequently, Tessera is projected to achieve 98.4\% of the theoretical memory bandwidth ceiling (a mere 1.6\% overhead). Across standard vision and language models, page-level memory encryption suffers up to a 32x bandwidth penalty, whereas Tessera maintains an optimal 1x footprint for all layer geometries. Finally, Tessera neutralizes major UMA-specific attack vectors -- including physical DRAM extraction, rogue DMA, and compute hijacking -- and formally prevents plaintext leakage across sparse tensors.
Abstract（参考訳）: コモディティエッジデバイスにプロプライエタリなDeep Neural Networks (DNN) をデプロイするには、ハードウェアが支援するDigital Rights Management (DRM) が必要である。統一メモリアーキテクチャ(UMA)システムでは、ホストCPUとニューラルプロセッシングユニット(NPU)は物理DRAMを共有しており、平文モデルの重みはOSカーネルが直接読み取ることができる。信頼された実行環境は不足したメモリを恒久的に予約されたリージョンで独占し、フルメモリの暗号化はページの粒度で動作する。これによりシステムは、サブページテンソルタイル用の4KBの巨大なメモリページを取得し、帯域幅を著しく制限する。本稿では,UMAエッジアクセラレータ上でのインライン,キャッシュラインの粒度重み復号化のための参照アーキテクチャであるTesseraを紹介する。設計は64バイトのAXIバーストをインターセプトし、DRAMフェッチと並行してAES-256-CTRキーストリームを演算する。これにより、平文を独立したNPU SRAMに直接ストリームし、アクティブタイルに制限された一時的なメモリフットプリントを生成し、永続的なメモリカルベアウトを不要にする。 3つの異なるSoCプラットフォームで測定した結果、この並列化は標準的なDRAMフェッチタイムの遅れを隠蔽することを示した。その結果、テセラは理論記憶帯域幅天井の98.4 %(わずか1.6 %のオーバーヘッド)を達成するように予測される。標準的なビジョンと言語モデル全体では、ページレベルのメモリ暗号化は32倍の帯域幅のペナルティに悩まされるが、Tesseraはすべての層で最適な1倍のフットプリントを維持している。最後に、Tesseraは、物理的DRAM抽出、ローグDMA、計算ハイジャックを含む主要なUMA固有の攻撃ベクトルを中和し、スパーステンソル間の平文リークを正式に防止する。

関連論文リスト

Out of the Memory Barrier: A Highly Memory Efficient Training System for LLMs with Million-Token Contexts [68.79341332280062]
長いコンテキストでの大規模言語モデル(LLM)のトレーニングは、トレーニング時間ではなく、GPUメモリの異常なオーバーヘッドによって厳しく制限される。この障壁に直面するメモリ効率の高いトレーニングシステムOOMBを紹介します。本手法では,オンザフライアクティベーション・リコンピュテーションを備えたチャンク・リカレント・トレーニング・フレームワークを用いて,一定のアクティベーションメモリフットプリントを維持する。
論文参考訳（メタデータ） (2026-02-02T13:52:40Z)
Radiant Foam Rendering on a Graph Processor [25.181643235594734]
多くのコアアクセラレーターは、単一の大きなデバイスメモリを数百から数千の軽量コアで置き換える。この組織は、高い集約帯域幅を提供しているが、多くの技術の背後にある重要な仮定を破っている。我々は,Graphcore Mk2 IPU上でのRadiant Foam Voronoiセルボリューム表現のために配布された,完全なレンダリングSRAMを提案する。我々のシステムは640x480で約1fpsのスループットを実現し、元のGPUベースのRadiant Foam実装に近い画像と深度マップの品質を実現した。
論文参考訳（メタデータ） (2026-01-07T20:44:04Z)
Bare-Metal Tensor Virtualization: Overcoming the Memory Wall in Edge-AI Inference on ARM64 [0.5729426778193398]
ARM64マイクロアーキテクチャ(Apple Silicon)向けに最適化されたソフトウェアで実装された"仮想コア"アーキテクチャ DMA(Software-Defined Direct Memory Access)は、100%キャッシュラインの利用をウェイトで保証しますが、ゼロコピーローダは遅延を排除します。 110M秒モデルによる実験結果から,M2ハードウェア上では, >60トークン/秒の安定したスループットが示された。
論文参考訳（メタデータ） (2026-01-06T15:00:40Z)
Kelle: Co-design KV Caching and eDRAM for Efficient LLM Serving in Edge Computing [9.984481065465028]
エッジデバイス上の大規模言語モデル(LLM)は、レイテンシの低減、リアルタイム処理の改善、プライバシの向上に不可欠である。エッジデバイスにLLMを実装することは、特にキーバリューキャッシュの管理において、課題となる。エッジデバイスにおけるLLMのプライマリストレージとしてeDRAMを提案する。
論文参考訳（メタデータ） (2025-10-16T07:12:08Z)
FedBit: Accelerating Privacy-Preserving Federated Learning via Bit-Interleaved Packing and Cross-Layer Co-Design [2.255961793913651]
完全同型暗号化(FHE)を備えたフェデレートラーニング(FL)は、モデルアグリゲーション中にデータプライバシを効果的に保護する。 FedBit は Brakerski-Fan-Vercauteren (BFV) スキームのためのハードウェア/ソフトウェアの共同設計フレームワークである。 FedBitは、ビットインターリーブデータパッキングを使用して、複数のモデルパラメータを単一の暗号係数に埋め込む。
論文参考訳（メタデータ） (2025-09-27T03:58:16Z)
Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。 Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文参考訳（メタデータ） (2025-08-04T16:14:03Z)
BitStack: Any-Size Compression of Large Language Models in Variable Memory Environments [53.71158537264695]
大規模言語モデル(LLM)は、多くのアプリケーションに革命をもたらしたが、ローカルデバイスにおけるメモリ制限により、その展開は依然として困難である。 textbfBitStackは,メモリ使用量とモデル性能のトレードオフを可能にする,新しいトレーニング不要な重み圧縮手法である。
論文参考訳（メタデータ） (2024-10-31T13:26:11Z)
Enabling Homomorphically Encrypted Inference for Large DNN Models [1.0679692136113117]
ホモモルフィック暗号化(HE)は暗号化データを使用した推論を可能にするが、100x--10,000xメモリと実行時のオーバーヘッドが発生する。 HEを用いたセキュアディープニューラルネットワーク(DNN)推論は現在、コンピューティングとメモリリソースによって制限されている。 DRAMと永続メモリからなるハイブリッドメモリシステムの利用可能性を検討する。
論文参考訳（メタデータ） (2021-03-30T07:53:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。