Fugu-MT 論文翻訳(概要): On Abnormal Execution Timing of Conditional Jump Instructions

論文の概要: On Abnormal Execution Timing of Conditional Jump Instructions

arxiv url: http://arxiv.org/abs/2601.11696v1
Date: Fri, 16 Jan 2026 18:30:09 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-28 13:22:13.838176
Title: On Abnormal Execution Timing of Conditional Jump Instructions
Title（参考訳）: 条件付きジャンプ命令の異常実行タイミングについて
Authors: Annika Wilde, Samira Briongos, Claudio Soriente, Ghassan Karame,
Abstract要約: 本研究では,条件分岐命令のタイミング変動を系統的に測定し,解析する。これらのタイミング変化は、現代のプロセッサのL1命令キャッシュにおけるマイクロオップキャッシュ配置とジャンプオフセットに起因していることを示す。最大スループットは16.14Mbpsである。
参考スコア（独自算出の注目度）: 5.661457012631801
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: An extensive line of work on modern computing architectures has shown that the execution time of instructions can (i) depend on the operand of the instruction or (ii) be influenced by system optimizations, e.g., branch prediction and speculative execution paradigms. In this paper, we systematically measure and analyze timing variabilities in conditional jump instructions that can be macro-fused with a preceding instruction, depending on their placement within the binary. Our measurements indicate that these timing variations stem from the micro-op cache placement and the jump's offset in the L1 instruction cache of modern processors. We demonstrate that this behavior is consistent across multiple microarchitectures, including Skylake, Coffee Lake, and Kaby Lake, as well as various real-world implementations. We confirm the prevalence of this variability through extensive experiments on a large-scale set of popular binaries, including libraries from Ubuntu 24.04, Windows 10 Pro, and several open-source cryptographic libraries. We also show that one can easily avoid this timing variability by ensuring that macro-fusible instructions are 32-byte aligned - an approach initially suggested in 2019 by Intel in an overlooked short report. We quantify the performance impact of this approach across the cryptographic libraries, showing a speedup of 2.15% on average (and up to 10.54%) when avoiding the timing variability. As a by-product, we show that this variability can be exploited as a covert channel, achieving a maximum throughput of 16.14 Mbps.
Abstract（参考訳）: 現代のコンピューティングアーキテクチャに関する広範な研究は、命令の実行時間が可能であることを示した。 i) 命令のオペランドに依存するか,又は (ii) システムの最適化、例えば分岐予測、投機的実行パラダイムの影響を受けます。本稿では,条件付きジャンプ命令のタイミング変動を,2進数内の配置に応じて,事前の命令でマクロフューズすることが可能なタイミング変動を系統的に計測し,解析する。これらのタイミング変化は、現代のプロセッサのL1命令キャッシュにおけるマイクロオップキャッシュ配置とジャンプオフセットに起因していることを示す。この挙動は、Skylake、Coffee Lake、Kaby Lakeを含む複数のマイクロアーキテクチャ、および様々な実世界の実装で一貫性があることを実証する。我々は、Ubuntu 24.04、Windows 10 Pro、およびいくつかのオープンソース暗号化ライブラリを含む、大規模な人気バイナリセットに関する広範な実験を通じて、この変数の有病率を確認した。また、マクロフィジブルな命令が32バイトのアライメントであることを保証することで、このタイミング変数を簡単に回避できることも示しています。我々は、暗号ライブラリ全体にわたるこのアプローチのパフォーマンスへの影響を定量化し、タイミングの変動を避ける場合、平均で2.15%(最大10.54%)のスピードアップを示す。副産物として,この可変性は,最大スループット16.14Mbpsを実現し,隠蔽チャネルとして活用可能であることを示す。

関連論文リスト

dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文参考訳（メタデータ） (2025-09-30T16:32:52Z)
Understanding and Mitigating Numerical Sources of Nondeterminism in LLM Inference [31.2331188304598]
評価バッチサイズ、GPUカウント、GPUバージョンなどのシステム構成の変更は、生成されたレスポンスに大きな違いをもたらす可能性がある。この変数の根本原因は、限定的な数値精度で浮動小数点算術の非連想性に遡る。そこで我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインLayerCastを開発した。
論文参考訳（メタデータ） (2025-06-11T08:23:53Z)
SMaCk: Efficient Instruction Cache Attacks via Self-Modifying Code Conflicts [5.942801930997087]
自己修正コード(SMC)は、プログラムが自身の命令を変更することを可能にする。 SMCは、悪質な目的のために悪用できるユニークな微構造的挙動を導入している。
論文参考訳（メタデータ） (2025-02-08T03:35:55Z)
Discovery of Endianness and Instruction Size Characteristics in Binary Programs from Unknown Instruction Set Architectures [0.0]
未知の命令セットアーキテクチャ(ISA)によるバイナリプログラムのリバースエンジニアリングの合理化問題について検討する。本稿では,REプロセス開始までの2つの基本的なISA特性,すなわちエンディアンネスの同定と,命令幅が固定か可変かの判定に焦点をあてる。我々は,信号処理アプリケーションで一般的に用いられている,エンディアンス検出のためのBigramベースの特徴と自己相関関数を用いて,固定幅と可変幅の命令サイズを区別する。
論文参考訳（メタデータ） (2024-10-28T21:43:53Z)
Breaking Bad: How Compilers Break Constant-Time Implementations [8.771587132463535]
本稿では,ディフェンシブプログラミング手法によって導入されたプロテクションを,コンパイラがどのように壊すかを検討する。我々は,現在最先端の暗号ライブラリにそのようなコンパイラによって引き起こされる問題が現れるかどうかを,大規模な実験で検証する。本研究は,最も高い評価を受けている暗号ライブラリのいくつかにおいて,コンパイラが引き起こす秘密の操作がいくつか発生していることを明らかにする。
論文参考訳（メタデータ） (2024-10-17T12:34:02Z)
Let the Code LLM Edit Itself When You Edit the Code [50.46536185784169]
underlinetextbfPositional textbfIntegrity textbfEncoding (PIE) PIEは、標準的な完全再計算手法に比べて計算オーバーヘッドを85%以上削減する。その結果、PIEは計算オーバーヘッドを標準の完全再計算手法に比べて85%以上削減することを示した。
論文参考訳（メタデータ） (2024-07-03T14:34:03Z)
Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文参考訳（メタデータ） (2024-05-28T22:19:30Z)
Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文参考訳（メタデータ） (2024-04-18T09:17:06Z)
Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文参考訳（メタデータ） (2023-11-14T15:56:18Z)
A Scalable Formal Verification Methodology for Data-Oblivious Hardware [3.518548208712866]
本稿では,標準プロパティチェック手法を用いて,ハードウェアにおけるデータ公開動作を正式に検証する手法を提案する。この帰納的特性の証明は,マイクロアーキテクチャレベルでのデータ公開性を徹底的に検証するのに十分であることを示す。あるケーススタディでは、広範囲に検証され、高度にセキュアなIBEX RISC-Vコアにおいて、データ依存のタイミング違反を発見した。
論文参考訳（メタデータ） (2023-08-15T13:19:17Z)
Exploring Continual Learning for Code Generation Models [80.78036093054855]
継続的学習(CL)は、コードドメインの中でまだ過小評価されていない重要な側面である。コード生成,翻訳,要約,改良など,幅広いタスクをカバーするCodeTask-CLというベンチマークを導入する。即時選択機構の不安定な訓練により,プロンプトプール (PP) などの有効手法が破滅的な忘れ込みに悩まされることが判明した。
論文参考訳（メタデータ） (2023-07-05T16:58:39Z)
DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文参考訳（メタデータ） (2023-04-18T15:13:10Z)
A High Performance Compiler for Very Large Scale Surface Code Computations [38.26470870650882]
大規模量子誤り訂正のための最初の高性能コンパイラを提案する。任意の量子回路を格子手術に基づく表面符号演算に変換する。コンパイラは、物理デバイスのリアルタイム操作に向けられた速度で、ストリーミングパイプラインを使用して数百万のゲートを処理することができる。
論文参考訳（メタデータ） (2023-02-05T19:06:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。