Fugu-MT 論文翻訳(概要): Memory DisOrder: Memory Re-orderings as a Timerless Side-channel

論文の概要: Memory DisOrder: Memory Re-orderings as a Timerless Side-channel

arxiv url: http://arxiv.org/abs/2601.08770v1
Date: Tue, 13 Jan 2026 17:59:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-14 18:27:19.316871
Title: Memory DisOrder: Memory Re-orderings as a Timerless Side-channel
Title（参考訳）: Memory Disorder: タイムレスサイドチャネルとしてのメモリ再注文
Authors: Sean Siddens, Sanya Srivastava, Reese Levine, Josiah Dykstra, Tyler Sorensen,
Abstract要約: Memory DisOrderは、メモリリオーダを使用して他のプロセス上でのアクティビティを推論する、タイムレスなサイドチャネルである。この脆弱性は、Apple M3 GPU上で最大16ビット/秒まで、95%の精度で、隠蔽チャネルを含む古典的な攻撃を実装するためにどのように使用できるかを示す。
参考スコア（独自算出の注目度）: 2.4013638436947633
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To improve efficiency, nearly all parallel processing units (CPUs and GPUs) implement relaxed memory models in which memory operations may be re-ordered, i.e., executed out-of-order. Prior testing work in this area found that memory re-orderings are observed more frequently when other cores are active, e.g., stressing the memory system, which likely triggers aggressive hardware optimizations. In this work, we present Memory DisOrder: a timerless side-channel that uses memory re-orderings to infer activity on other processes. We first perform a fuzzing campaign and show that many mainstream processors (X86/Arm/Apple CPUs, NVIDIA/AMD/Apple GPUs) are susceptible to cross-process signals. We then show how the vulnerability can be used to implement classic attacks, including a covert channel, achieving up to 16 bits/second with 95% accuracy on an Apple M3 GPU, and application fingerprinting, achieving reliable closed-world DNN architecture fingerprinting on several CPUs and an Apple M3 GPU. Finally, we explore how low-level system details can be exploited to increase re-orderings, showing the potential for a covert channel to achieve nearly 30K bits/second on X86 CPUs. More precise attacks can likely be developed as the vulnerability becomes better understood.
Abstract（参考訳）: 効率を改善するために、ほぼすべての並列処理ユニット(CPUとGPU)は、メモリ操作を順序付けせずに実行することができる緩和されたメモリモデルを実装している。この領域での以前のテストでは、他のコアがアクティブである場合、例えばメモリシステムを強調して、メモリのリオーダがより頻繁に観測されることが判明した。本稿では、メモリリオーダを使用して他のプロセス上でのアクティビティを推測する、タイムレスなサイドチャネルであるMemory DisOrderを紹介する。まずファジングキャンペーンを行い、多くの主流プロセッサ(X86/Arm/Apple CPU、NVIDIA/AMD/Apple GPU)がクロスプロセス信号に影響を受けやすいことを示す。次に、この脆弱性を、Apple M3 GPU上で最大16ビット/秒で95%の精度で達成し、複数のCPUとApple M3 GPU上で信頼できるクローズドワールドDNNアーキテクチャのフィンガープリントを実現する、古典的な攻撃の実装にどのように使用できるかを示す。最後に,低レベルのシステムの詳細をいかに活用して再注文を増やすかを検討し,X86 CPU上で30Kビット/秒近くを達成するための隠蔽チャネルの可能性を示す。脆弱性がよりよく理解されるにつれて、より正確な攻撃が開発される可能性がある。

関連論文リスト

CLM: Removing the GPU Memory Barrier for 3D Gaussian Splatting [34.933663925174635]
CLMは、3DGSが1つのコンシューマグレードのGPUを使用して大きなシーンをレンダリングできるシステムである。ガウスアンをCPUメモリにオフロードし、必要であればGPUメモリにロードする。性能と通信のオーバーヘッドを軽減するため、CLMは新たなオフロード戦略を採用している。
論文参考訳（メタデータ） (2025-11-07T03:30:28Z)
Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。我々はDualParalと呼ばれる新しい分散推論戦略を提案する。 1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文参考訳（メタデータ） (2025-05-27T11:55:22Z)
Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference [4.497936996651617]
大規模言語モデルは様々なタスクに広く採用されているが、その自己回帰的な性質は推論時に非効率な資源利用につながることが多い。本稿では、GPUレベルの詳細な分析を通して、大バッチ推論がメモリバウンドのままであり、ほとんどのGPU計算能力は未利用であることを示す。
論文参考訳（メタデータ） (2025-03-11T11:21:35Z)
HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading [79.38548165722229]
HEADINFERはKVキャッシュをCPURAMにオフロードするが、GPU上のトランスフォーマー層のKVキャッシュを完全に保存する必要はない。 HEADINFERはメモリフットプリントを大幅に削減し,計算効率を向上することを示した。
論文参考訳（メタデータ） (2025-02-18T06:26:05Z)
Memory-Efficient Training for Deep Speaker Embedding Learning in Speaker Verification [50.596077598766975]
資源制約のあるシナリオにおける深層話者埋め込み学習のためのメモリ効率のトレーニング戦略について検討する。アクティベーションのために、中間アクティベーションを格納する必要がない2種類の可逆ニューラルネットワークを設計する。状態に対して、元の32ビット浮動小数点値を動的ツリーベースの8ビットデータ型に置き換える動的量子化手法を導入する。
論文参考訳（メタデータ） (2024-12-02T06:57:46Z)
Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文参考訳（メタデータ） (2024-10-26T00:43:59Z)
Less Memory Means smaller GPUs: Backpropagation with Compressed Activations [1.7065506903618906]
深層ニューラルネットワーク(DNN)の規模は、計算リソースの要件が等しく急速に増大している。最近の多くのアーキテクチャ、特にLarge Language Modelsは、何千ものアクセラレーターを持つスーパーコンピュータを使って訓練されなければならない。このアプローチにより、より長いトレーニングスケジュールのコストで、ピークメモリ使用量を29%削減することが可能になります。
論文参考訳（メタデータ） (2024-09-18T11:57:05Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文参考訳（メタデータ） (2024-03-21T04:31:59Z)
Demand Layering for Real-Time DNN Inference with Minimized Memory Usage [2.5768647103950357]
ディープニューラルネットワーク(DNN)モデルパラメータは、実行前にGPUメモリにロードされる。本稿では,DNNの層間実行を利用したDemand Layeringを提案する。私たちの実装では、96.5%のメモリ削減と、平均14.8%の遅延オーバーヘッドが示されています。
論文参考訳（メタデータ） (2022-10-08T13:38:48Z)
XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model [137.50614198301733]
機能記憶を統一した長ビデオのためのビデオオブジェクトセグメンテーションアーキテクチャであるXMemを提案する。独立して深く接続された複数の機能記憶を組み込んだアーキテクチャを開発する。 XMemは、ロングビデオデータセットにおける最先端のパフォーマンスを大幅に上回る。
論文参考訳（メタデータ） (2022-07-14T17:59:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。