論文の概要: PoSME: Proof of Sequential Memory Execution via Latency-Bound Pointer Chasing with Causal Hash Binding
- arxiv url: http://arxiv.org/abs/2604.15751v1
- Date: Fri, 17 Apr 2026 06:53:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.773229
- Title: PoSME: Proof of Sequential Memory Execution via Latency-Bound Pointer Chasing with Causal Hash Binding
- Title(参考訳): PoSME: Causal Hash Bindingを用いた遅延境界ポインタチェスリングによる逐次メモリ実行の証明
- Authors: David L. Condrey,
- Abstract要約: PoSMEは、可変アリーナを追尾する遅延バウンドポインタによる連続的な計算を継続する。
これは、(1)厳密な線形逐次メモリステップの強制、(2)高時間メモリのトレードオフ抵抗、(3)帯域幅よりもDRAMランダムアクセスレイテンシに束縛されたASICアドバンテージの3つの特性をもたらす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce PoSME (Proof of Sequential Memory Execution), a cryptographic primitive that enforces sustained sequential computation via latency-bound pointer chasing over a mutable arena. Each step reads data-dependent addresses, writes a block whose value and causal hash are mutually dependent (symbiotic binding), and chains the result into a global transcript. This yields three properties: (1) strict linear sequential memory-step enforcement, (2) high time-memory trade-off resistance (a tenfold penalty at a write density of 4, with a formal space-time lower bound that scales quadratically with the number of steps), and (3) a tight ASIC advantage bound by DRAM random-access latency rather than bandwidth. Benchmarks across 17 CPU platforms and 4 GPU architectures demonstrate that hash computation is under 3.5 percent of step cost and GPU hardware is 14 to 19 times slower than a consumer CPU. POSME requires no trusted setup and provides a foundation for verifiable delay, authorship attestation, and Sybil resistance.
- Abstract(参考訳): 本稿では,PosME(Proof of Sequential Memory Execution)という暗号プリミティブを導入する。
各ステップは、データ依存アドレスを読み出し、値と因果ハッシュが相互依存するブロック(共生結合)を書き、その結果をグローバルな書き起こしにチェーンする。
これは、(1)厳密な線形逐次メモリステップの強制、(2)高時間メモリのトレードオフ抵抗(書き込み密度4の10倍のペナルティで、ステップ数と4倍にスケールする形式的な時空低境界)、(3)帯域幅よりもDRAMランダムレイテンシのレイテンシに縛られるタイトなASICアドバンテージである。
17のCPUプラットフォームと4つのGPUアーキテクチャのベンチマークでは、ハッシュ計算がステップコストの3.5パーセント以下であり、GPUハードウェアはコンシューマCPUの14~19倍遅いことが示されている。
POSMEは信頼性の高いセットアップを必要とせず、検証可能な遅延、著者の証明、およびSybil抵抗のための基盤を提供する。
関連論文リスト
- A Persistent-State Dataflow Accelerator for Memory-Bound Linear Attention Decode on FPGA [10.452946241750562]
Gated DeltaNet(GDN)は、成長するKVキャッシュを固定サイズのリカレントステートに置き換える線形アテンションメカニズムである。
このボトルネックはアルゴリズムではなくアーキテクチャであることが示され、全てのサブクワッド列モデルはデコード時に 1 FLOP/B 未満の演算強度を示す。
オンチップBRAMにおいて,フル2MBのリカレント状態を持続的に保持することにより,このボトルネックを解消するFPGAアクセラレータを提案する。
論文 参考訳(メタデータ) (2026-03-06T06:03:38Z) - Analyzing Latency Hiding and Parallelism in an MLIR-based AI Kernel Compiler [0.0]
エッジデバイスのAIカーネルコンパイルは、並列性を悪用し、メモリレイテンシを隠蔽するコンパイラの能力に依存する。
本稿では,MLIRベースのコンパイルパイプラインにおける3つのコンパイラ制御機構のベンチマーク手法とそれに対応する結果について報告する。
論文 参考訳(メタデータ) (2026-02-22T19:14:23Z) - dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - KVPR: Efficient LLM Inference with I/O-Aware KV Cache Partial Recomputation [7.204881999658682]
キーバリューキャッシュは、大きな言語モデルの中間アクティベーションを格納するために使用される。
KVキャッシュに必要なメモリは急速に増加し、しばしばGPUメモリの容量を超える。
既存の方法は、GPU計算をI/Oで重複させたり、CPU-GPUの不均一な実行を採用することで、これらの問題に対処しようとする。
本稿では,CPUが最初にアクティベーションの部分集合を転送する,効率的なI/O対応LPM推論手法であるKVPRを紹介する。
KVPRは、最先端のアプローチと比較して最大で35.8%のレイテンシと46.2%のスループットを実現している。
論文 参考訳(メタデータ) (2024-11-26T04:03:14Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Fast On-device LLM Inference with NPUs [10.80559106452755]
我々は、オンデバイスニューラルプロセッシングユニット(NPU)オフロードを利用した最初のLCM推論システムであるllm.npuについて述べる。
llm.npuは3つのレベルでプロンプトとモデルを再構築することで、NPUのオフロード効率を向上させる。
初めて、llm.npuは10億規模のモデルで1000トークン/秒以上のプリフィルを達成した。
論文 参考訳(メタデータ) (2024-07-08T12:20:45Z) - RelayAttention for Efficient Large Language Model Serving with Long System Prompts [59.50256661158862]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。
これらのシステムプロンプトの処理には、既存の因果注意アルゴリズムにおいて、大量のメモリアクセスが必要である。
本稿では,DRAMから入力トークンのバッチに対して,DRAMから隠れた状態を正確に1回読み取ることのできるアテンションアルゴリズムであるRelayAttentionを提案する。
論文 参考訳(メタデータ) (2024-02-22T18:58:28Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。