論文の概要: On Abnormal Execution Timing of Conditional Jump Instructions
- arxiv url: http://arxiv.org/abs/2601.11696v1
- Date: Fri, 16 Jan 2026 18:30:09 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-01-21 12:32:03.199889
- Title: On Abnormal Execution Timing of Conditional Jump Instructions
- Title(参考訳): 条件付きジャンプ命令の異常実行タイミングについて
- Authors: Annika Wilde, Samira Briongos, Claudio Soriente, Ghassan Karame,
- Abstract要約: 本研究では,条件分岐命令のタイミング変動を系統的に測定し,解析する。
これらのタイミング変化は、現代のプロセッサのL1命令キャッシュにおけるマイクロオップキャッシュ配置とジャンプオフセットに起因していることを示す。
最大スループットは16.14Mbpsである。
- 参考スコア(独自算出の注目度): 5.661457012631801
- License:
- Abstract: An extensive line of work on modern computing architectures has shown that the execution time of instructions can (i) depend on the operand of the instruction or (ii) be influenced by system optimizations, e.g., branch prediction and speculative execution paradigms. In this paper, we systematically measure and analyze timing variabilities in conditional jump instructions that can be macro-fused with a preceding instruction, depending on their placement within the binary. Our measurements indicate that these timing variations stem from the micro-op cache placement and the jump's offset in the L1 instruction cache of modern processors. We demonstrate that this behavior is consistent across multiple microarchitectures, including Skylake, Coffee Lake, and Kaby Lake, as well as various real-world implementations. We confirm the prevalence of this variability through extensive experiments on a large-scale set of popular binaries, including libraries from Ubuntu 24.04, Windows 10 Pro, and several open-source cryptographic libraries. We also show that one can easily avoid this timing variability by ensuring that macro-fusible instructions are 32-byte aligned - an approach initially suggested in 2019 by Intel in an overlooked short report. We quantify the performance impact of this approach across the cryptographic libraries, showing a speedup of 2.15% on average (and up to 10.54%) when avoiding the timing variability. As a by-product, we show that this variability can be exploited as a covert channel, achieving a maximum throughput of 16.14 Mbps.
- Abstract(参考訳): 現代のコンピューティングアーキテクチャに関する広範な研究は、命令の実行時間が可能であることを示した。
i) 命令のオペランドに依存するか,又は
(ii) システムの最適化、例えば分岐予測、投機的実行パラダイムの影響を受けます。
本稿では,条件付きジャンプ命令のタイミング変動を,2進数内の配置に応じて,事前の命令でマクロフューズすることが可能なタイミング変動を系統的に計測し,解析する。
これらのタイミング変化は、現代のプロセッサのL1命令キャッシュにおけるマイクロオップキャッシュ配置とジャンプオフセットに起因していることを示す。
この挙動は、Skylake、Coffee Lake、Kaby Lakeを含む複数のマイクロアーキテクチャ、および様々な実世界の実装で一貫性があることを実証する。
我々は、Ubuntu 24.04、Windows 10 Pro、およびいくつかのオープンソース暗号化ライブラリを含む、大規模な人気バイナリセットに関する広範な実験を通じて、この変数の有病率を確認した。
また、マクロフィジブルな命令が32バイトのアライメントであることを保証することで、このタイミング変数を簡単に回避できることも示しています。
我々は、暗号ライブラリ全体にわたるこのアプローチのパフォーマンスへの影響を定量化し、タイミングの変動を避ける場合、平均で2.15%(最大10.54%)のスピードアップを示す。
副産物として,この可変性は,最大スループット16.14Mbpsを実現し,隠蔽チャネルとして活用可能であることを示す。
関連論文リスト
- dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - Understanding and Mitigating Numerical Sources of Nondeterminism in LLM Inference [31.2331188304598]
評価バッチサイズ、GPUカウント、GPUバージョンなどのシステム構成の変更は、生成されたレスポンスに大きな違いをもたらす可能性がある。
この変数の根本原因は、限定的な数値精度で浮動小数点算術の非連想性に遡る。
そこで我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインLayerCastを開発した。
論文 参考訳(メタデータ) (2025-06-11T08:23:53Z) - SMaCk: Efficient Instruction Cache Attacks via Self-Modifying Code Conflicts [5.942801930997087]
自己修正コード(SMC)は、プログラムが自身の命令を変更することを可能にする。
SMCは、悪質な目的のために悪用できるユニークな微構造的挙動を導入している。
論文 参考訳(メタデータ) (2025-02-08T03:35:55Z) - Discovery of Endianness and Instruction Size Characteristics in Binary Programs from Unknown Instruction Set Architectures [0.0]
未知の命令セットアーキテクチャ(ISA)によるバイナリプログラムのリバースエンジニアリングの合理化問題について検討する。
本稿では,REプロセス開始までの2つの基本的なISA特性,すなわちエンディアンネスの同定と,命令幅が固定か可変かの判定に焦点をあてる。
我々は,信号処理アプリケーションで一般的に用いられている,エンディアンス検出のためのBigramベースの特徴と自己相関関数を用いて,固定幅と可変幅の命令サイズを区別する。
論文 参考訳(メタデータ) (2024-10-28T21:43:53Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。
我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文 参考訳(メタデータ) (2023-11-14T15:56:18Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - A High Performance Compiler for Very Large Scale Surface Code Computations [38.26470870650882]
大規模量子誤り訂正のための最初の高性能コンパイラを提案する。
任意の量子回路を格子手術に基づく表面符号演算に変換する。
コンパイラは、物理デバイスのリアルタイム操作に向けられた速度で、ストリーミングパイプラインを使用して数百万のゲートを処理することができる。
論文 参考訳(メタデータ) (2023-02-05T19:06:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。