Fugu-MT 論文翻訳(概要): ALLMod: Exploring $\underline{\mathbf{A}}$rea-Efficiency of $\underline{\mathbf{L}}$UT-based $\underline{\mathbf{L}}$arge Number $\underline{\mathbf{Mod}}$ular Reduction via Hybrid Workloads

論文の概要: ALLMod: Exploring $\underline{\mathbf{A}}$rea-Efficiency of $\underline{\mathbf{L}}$UT-based $\underline{\mathbf{L}}$arge Number $\underline{\mathbf{Mod}}$ular Reduction via Hybrid Workloads

arxiv url: http://arxiv.org/abs/2503.15916v1
Date: Thu, 20 Mar 2025 07:47:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-21 15:30:52.310012
Title: ALLMod: Exploring $\underline{\mathbf{A}}$rea-Efficiency of $\underline{\mathbf{L}}$UT-based $\underline{\mathbf{L}}$arge Number $\underline{\mathbf{Mod}}$ular Reduction via Hybrid Workloads
Title（参考訳）: ALLMod: Exploring $\underline{\mathbf{A}}$rea-Efficiency of $\underline{\mathbf{L}}$UT-based $\underline{\mathbf{L}}$arge Number $\underline{\mathbf{Mod}}$ular Reduction via Hybrid Workloads
Authors: Fangxin Liu, Haomin Li, Zongwu Wang, Bo Zhang, Mingzhe Zhang, Shoumeng Yan, Li Jiang, Haibing Guan,
Abstract要約: 高ビット幅の操作は、セキュリティの強化に不可欠である。計算量が多いのは、多くのモジュラー演算が必要なためである。 AllModは、LUTベースの大規模モジュラーリダクションの面積効率を改善する新しいアプローチである。
参考スコア（独自算出の注目度）: 18.634794494170617
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modular arithmetic, particularly modular reduction, is widely used in cryptographic applications such as homomorphic encryption (HE) and zero-knowledge proofs (ZKP). High-bit-width operations are crucial for enhancing security; however, they are computationally intensive due to the large number of modular operations required. The lookup-table-based (LUT-based) approach, a ``space-for-time'' technique, reduces computational load by segmenting the input number into smaller bit groups, pre-computing modular reduction results for each segment, and storing these results in LUTs. While effective, this method incurs significant hardware overhead due to extensive LUT usage. In this paper, we introduce ALLMod, a novel approach that improves the area efficiency of LUT-based large-number modular reduction by employing hybrid workloads. Inspired by the iterative method, ALLMod splits the bit groups into two distinct workloads, achieving lower area costs without compromising throughput. We first develop a template to facilitate workload splitting and ensure balanced distribution. Then, we conduct design space exploration to evaluate the optimal timing for fusing workload results, enabling us to identify the most efficient design under specific constraints. Extensive evaluations show that ALLMod achieves up to $1.65\times$ and $3\times$ improvements in area efficiency over conventional LUT-based methods for bit-widths of $128$ and $8,192$, respectively.
Abstract（参考訳）: モジュラー算術、特にモジュラー還元は、ホモモルフィック暗号(HE)やゼロ知識証明(ZKP)といった暗号アプリケーションで広く使われている。高ビット幅演算はセキュリティ向上に不可欠であるが、多くのモジュラー演算を必要とするため計算集約的である。 lookup-table-based (LUT-based) approach, a `space-for-time' technique, the input number segmenting into small bit group, pre-computing modular reduction results for each segment, and stored these results in LUTs。有効ではあるが、この手法は広範なLUT使用のためにハードウェアのオーバーヘッドを著しく発生させる。本稿では,LUTをベースとした大規模モジュラーリダクションの面積効率を向上させる手法であるALLModを紹介する。繰り返し方式にインスパイアされたALLModは、ビット群を2つの異なるワークロードに分割し、スループットを損なうことなく、より低い領域コストを達成する。まず、ワークロード分割を容易にし、バランスの取れた分散を保証するテンプレートを開発します。そして, 作業負荷を低減させる最適タイミングを評価するために, 設計空間探索を行い, 特定の制約の下で最も効率的な設計を特定できるようにする。大規模な評価では、ALLMod は従来の LUT ベースのビット幅でそれぞれ $128$ と 8,192$ の領域効率の改善に対して $1.65\times$ と $3\times$ を達成している。

関連論文リスト

FHECore: Rethinking GPU Microarchitecture for Fully Homomorphic Encryption [2.7777199166440827]
FHE(Fully Homomorphic Encryption)は、暗号化されたデータを直接計算できるが、膨大な計算とメモリオーバーヘッドを発生させる。カスタムアクセラレーターはこれらのコストを軽減することができるが、市場投入までの長い時間とFHEアルゴリズムの急速な進化は、長期的な妥当性を脅かす。本稿では,GPUのストリームマルチプロセッサに直接統合された特殊な機能ユニットであるFHECoreを提案する。
論文参考訳（メタデータ） (2026-02-10T02:55:10Z)
StelLA: Subspace Learning in Low-rank Adaptation using Stiefel Manifold [51.93627542334909]
低ランク適応(LoRA)は大規模事前訓練モデルのパラメータ効率向上手法として広く採用されている。 3要素分解$U!SVtop$を使用するLoRAの幾何学的拡張を提案する。
論文参考訳（メタデータ） (2025-10-02T11:59:13Z)
MaskPro: Linear-Space Probabilistic Learning for Strict (N:M)-Sparsity on Large Language Models [53.36415620647177]
半構造化された空間は、M$M$の重みからN$の要素を戦略的に保持することで、有望なソリューションを提供する。既存の(N:M)互換のアプローチは通常、かなりのエラーに悩まされるルールベースの階層的な欲求探索と、禁止的なトレーニングコストを引き起こす勾配駆動学習の2つのカテゴリに分類される。 MaskProという新しい線形空間確率的フレームワークを提案する。これは、M$連続重みごとに事前のカテゴリー分布を学習し、その後、この分布を活用して(N:M)スパーシリティを$N$-wayサンプリングを通じて生成することを目的としている。
論文参考訳（メタデータ） (2025-06-15T15:02:59Z)
Algorithms for the Shortest Vector Problem in $2$-dimensional Lattices, Revisited [4.843809993270313]
2次元格子における最短ベクトル問題(SVP)の効率的な解法は、暗号や計算幾何学において実際的な重要性を持つ。我々は、ユークリッドアルゴリズムを次元にわたって戦略的に適用する効率的な適応格子削減アルゴリズム textbfCrossEuc を開発した。 textbfHVecを反復的に呼び出すことによって、最適化されたアルゴリズム textbfHVecSBP は、ビット長$n$の任意の入力ベースに対して$O(log n M(n) )$ time の還元基底を得る。
論文参考訳（メタデータ） (2025-04-17T13:50:51Z)
Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency [52.60557300927007]
離散部分モジュラー問題を連続的に最適化するために,$textbfMA-OSMA$アルゴリズムを提案する。また、一様分布を混合することによりKLの発散を効果的に活用する、プロジェクションフリーな$textbfMA-OSEA$アルゴリズムも導入する。我々のアルゴリズムは最先端OSGアルゴリズムによって提供される$(frac11+c)$-approximationを大幅に改善する。
論文参考訳（メタデータ） (2025-02-07T15:57:56Z)
LUT-DLA: Lookup Table as Efficient Extreme Low-Bit Deep Learning Accelerator [11.167930856636161]
本稿では、ベクトル量子化を利用してニューラルネットワークモデルをLUTに変換するLUT-DLA(Look-Up Table (LUT) Deep Learning Accelerator Framework)を紹介する。 LUT-DLAは、それぞれ$1.4$$7.0times$と$1.5$$$146.1times$で、電力効率と面積効率の改善を実現していることを示す。
論文参考訳（メタデータ） (2025-01-18T05:27:25Z)
Duo-LLM: A Framework for Studying Adaptive Computation in Large Language Models [16.16372459671255]
大規模言語モデル(LLM)は通常、固定された計算予算を使用してトークンによって出力トークンを生成する。 LLMの各フィードフォワードネットワーク層に小さな補助モジュールを統合する新しいフレームワークを提案する。訓練されたルータがオーラクルと異なる動作をしており、しばしば準最適解が得られることを示す。
論文参考訳（メタデータ） (2024-10-01T16:10:21Z)
LUT Tensor Core: A Software-Hardware Co-Design for LUT-Based Low-Bit LLM Inference [10.608817382813786]
混合精度行列(英: Mixed-precision matrix, mpGEMM)は、より高精度な活性化を伴う低精度重みの乗算を含む重要かつ未解明の演算である。オフザシェルフハードウェアはこの操作をサポートしておらず、間接的、すなわち非効率な復号化ベースの実装に繋がる。本稿では,mpGEMMのルックアップテーブル(LUT)に基づくアプローチについて検討し,従来のLUT実装では期待値の達成に失敗することを確認した。
論文参考訳（メタデータ） (2024-08-12T08:52:14Z)
Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。 HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文参考訳（メタデータ） (2024-04-16T06:34:08Z)
Low-Complexity Integer Divider Architecture for Homomorphic Encryption [5.857929080874288]
ホモモルフィック暗号化(HE)は、計算を直接暗号文で行うことができ、プライバシ保護のクラウドコンピューティングを可能にする。余剰かつ活発な数学的証明を計算するアルゴリズムが提案されている。
論文参考訳（メタデータ） (2024-01-19T23:53:59Z)
Area Efficient Modular Reduction in Hardware for Arbitrary Static Moduli [3.217374402111224]
そこで本研究では,任意の静的変調のためのハードウェアにおいて,モジュールリダクションを効率的に計算するための新しい手法を提案する。我々の手法は一定時間で実行でき、これは暗号アプリケーションに必須である。
論文参考訳（メタデータ） (2023-08-29T07:26:20Z)
Reconstructed Convolution Module Based Look-Up Tables for Efficient Image Super-Resolution [9.715421499605934]
ルックアップテーブル(LUT)に基づく手法は、単一画像超解像(SR)タスクにおいて大きな効果を示した。従来の方法は、LUTにおける制限受容野(RF)サイズの本質的な理由を無視している。本稿では,チャネルワイドと空間計算を分離した新しい再構成畳み込みモジュールを提案する。
論文参考訳（メタデータ） (2023-07-17T15:04:00Z)
Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文参考訳（メタデータ） (2022-10-14T01:42:05Z)
Quantum Goemans-Williamson Algorithm with the Hadamard Test and Approximate Amplitude Constraints [62.72309460291971]
本稿では,n+1$ qubitsしか使用しないGoemans-Williamsonアルゴリズムの変分量子アルゴリズムを提案する。補助量子ビット上で適切にパラメータ化されたユニタリ条件として目的行列を符号化することにより、効率的な最適化を実現する。各種NPハード問題に対して,Goemans-Williamsonアルゴリズムの量子的効率的な実装を考案し,提案プロトコルの有効性を実証する。
論文参考訳（メタデータ） (2022-06-30T03:15:23Z)
Minimax Optimal Quantization of Linear Models: Information-Theoretic Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文参考訳（メタデータ） (2022-02-23T02:39:04Z)
1$\times$N Block Pattern for Network Sparsity [90.43191747596491]
我々は,この制限を破るために,ブロック間隔パターン(ブロックプルーニング)を1時間で定義する新しい概念を提案する。このパターンはMobileNet-V2の上位1の精度でフィルタプルーニングよりも約3.0%改善されている。また、重み付けによるCortex-A7 CPUの56.04msの推論も得る。
論文参考訳（メタデータ） (2021-05-31T05:50:33Z)
Provably Efficient Reinforcement Learning for Discounted MDPs with Feature Mapping [99.59319332864129]
本稿では,割引決定(MDP)のための強化学習について検討する。本稿では,特徴写像を利用した新しいアルゴリズムを提案し,$tilde O(dsqrtT/ (1-gamma)2)$ regretを求める。以上の結果から,提案した強化学習アルゴリズムは,最大1-γ-0.5$の係数でほぼ最適であることが示唆された。
論文参考訳（メタデータ） (2020-06-23T17:08:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。