Fugu-MT 論文翻訳(概要): CiFHER: A Chiplet-Based FHE Accelerator with a Resizable Structure

論文の概要: CiFHER: A Chiplet-Based FHE Accelerator with a Resizable Structure

arxiv url: http://arxiv.org/abs/2308.04890v3
Date: Mon, 1 Apr 2024 02:45:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 13:22:09.689462
Title: CiFHER: A Chiplet-Based FHE Accelerator with a Resizable Structure
Title（参考訳）: CiFHER: 小型化可能なチップレット型FHE加速器
Authors: Sangpyo Kim, Jongmin Kim, Jaeyoung Choi, Jung Ho Ahn,
Abstract要約: ホモモルフィック暗号化(FHE)は、プライバシに対する決定的な解決策であるが、FHEの高い計算オーバーヘッドは、その実践的な採用に挑戦する。本稿では,チップレットをベースとしたFHE加速器であるCiFHERを提案する。本研究では、多数のコンパクトチップレットからなるCiFHERパッケージが、最先端のモノリシックASICアクセラレータに匹敵する性能を提供することを示した。
参考スコア（独自算出の注目度）: 5.0817812294893
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fully homomorphic encryption (FHE) is in the spotlight as a definitive solution for privacy, but the high computational overhead of FHE poses a challenge to its practical adoption. Although prior studies have attempted to design ASIC accelerators to mitigate the overhead, their designs require excessive chip resources (e.g., areas) to contain and process massive data for FHE operations. We propose CiFHER, a chiplet-based FHE accelerator with a resizable structure, to tackle the challenge with a cost-effective multi-chip module (MCM) design. First, we devise a flexible core architecture whose configuration is adjustable to conform to the global organization of chiplets and design constraints. Its distinctive feature is a composable functional unit providing varying computational throughput for the number-theoretic transform, the most dominant function in FHE. Then, we establish generalized data mapping methodologies to minimize the interconnect overhead when organizing the chips into the MCM package in a tiled manner, which becomes a significant bottleneck due to the packaging constraints. This study demonstrates that a CiFHER package composed of a number of compact chiplets provides performance comparable to state-of-the-art monolithic ASIC accelerators while significantly reducing the package-wide power consumption and manufacturing cost.
Abstract（参考訳）: 完全同型暗号化(FHE)は、プライバシの決定的な解決策として注目されているが、FHEの高い計算オーバーヘッドは、その実用化に挑戦している。以前の研究では、オーバーヘッドを軽減するためにASICアクセラレーターを設計しようとしたが、その設計にはFHE操作のために大量のデータを格納し処理するために過剰なチップリソース(例えば領域)が必要である。コスト効率のよいマルチチップモジュール(MCM)設計の課題に対処するため,チップレットベースのFHEアクセラレータであるCiFHERを提案する。まず,チップレットのグローバルな構成や設計制約に適合するように構成を調整可能なフレキシブルなコアアーキテクチャを考案する。その特徴的な特徴は、FHEの最も支配的な関数である数理論変換の計算スループットが変化する構成可能な機能ユニットである。そこで我々は,MCMパッケージにチップを配置する際の相互接続オーバーヘッドを最小限に抑えるため,汎用データマッピング手法を確立した。本研究は,多数のコンパクトチップレットからなるCiFHERパッケージが,パッケージ全体の消費電力と製造コストを大幅に削減しつつ,最先端のモノリシックASICアクセラレータに匹敵する性能を提供することを示した。

関連論文リスト

IntraSlice: Towards High-Performance Structural Pruning with Block-Intra PCA for LLMs [37.1665041786606]
大きな言語モデル(LLM)は、さまざまなタスクにわたって強力なパフォーマンスを実現しますが、その巨大なサイズのため、デプロイメントの課題に直面します。近年,PCAをベースとしたプルーニング手法では,キーアクティベーションコンポーネントの保持によりこの問題が緩和されている。ブロックワイドモジュールイントラPCA圧縮プルーニングを適用するフレームワークであるIntraSliceを提案する。
論文参考訳（メタデータ） (2026-02-02T11:28:56Z)
Bridging Superconducting and Neutral-Atom Platforms for Efficient Fault-Tolerant Quantum Architectures [14.971894680142343]
本稿では,超伝導 (SC) と中性原子 (NA) プラットフォームの利点を生かしたヘテロジニアス量子アーキテクチャ (HQA) への戦略的アプローチを提案する。我々の設計では、NAのみのベースラインよりも平均で752タイムでスピードアップし、SCのみのシステムに比べて物理量子ビットのフットプリントを10タイム以上削減しています。
論文参考訳（メタデータ） (2026-01-15T07:39:05Z)
MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。資源制約されたプラットフォームにおける高い計算コスト制限。我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文参考訳（メタデータ） (2025-10-16T18:00:00Z)
PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。 PT$2$-LLMを提案する。その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文参考訳（メタデータ） (2025-09-27T03:01:48Z)
RPCANet++: Deep Interpretable Robust PCA for Sparse Object Segmentation [51.37553739930992]
RPCANet++は、RPCAの解釈可能性と効率的なディープアーキテクチャを融合したスパースオブジェクトセグメンテーションフレームワークである。我々のアプローチは、緩やかなRPCAモデルを背景近似モジュール(BAM)、対象抽出モジュール(OEM)、画像復元モジュール(IRM)からなる構造化ネットワークに展開する。さまざまなデータセットの実験では、RPCANet++がさまざまなイメージングシナリオの下で最先端のパフォーマンスを達成することが示されている。
論文参考訳（メタデータ） (2025-08-06T08:19:37Z)
Protenix-Mini: Efficient Structure Predictor via Compact Architecture, Few-Step Diffusion and Switchable pLM [37.865341638265534]
本稿では,タンパク質構造予測のためのコンパクトで最適化されたモデルProtenix-Miniを提案する。冗長なTransformerコンポーネントを排除し、サンプリングプロセスを洗練することにより、Protenix-Miniはモデルの複雑さをわずかに削減する。
論文参考訳（メタデータ） (2025-07-16T02:08:25Z)
Focus Your Attention: Towards Data-Intuitive Lightweight Vision Transformers [0.0]
Super-Pixel Based Patch Pooling (SPPP)技術は、アーキテクチャの複雑さを低減し、効率を向上させるために、コンテキスト対応、セマンティックにリッチなパッチ埋め込みを生成する。我々は、潜在トークンをアテンションメカニズムに統合することで、光遅延注意(LLA)モジュールをパイプラインに導入する。提案手法は,グローバルな意味構造を維持しつつ,情報的領域に焦点を絞るために,横断的意図過程を適応的に調整する。
論文参考訳（メタデータ） (2025-06-23T16:00:57Z)
QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge [55.75103034526652]
ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
論文参考訳（メタデータ） (2025-03-20T21:03:10Z)
FLARE: FP-Less PTQ and Low-ENOB ADC Based AMS-PiM for Error-Resilient, Fast, and Efficient Transformer Acceleration [7.37841083168521]
本稿では,DQ-Q処理を不要にし,FPUおよび分割自由非線形処理を導入し,低ENOB-ADCに基づくスパース行列ベクトル乗法を用いるAMS-PiMアーキテクチャを提案する。 RAPは数値安定性を維持しながら、エラー回復力、面積/エネルギー効率、計算速度を改善する。
論文参考訳（メタデータ） (2024-11-22T05:01:35Z)
Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文参考訳（メタデータ） (2024-10-08T11:07:55Z)
Resource Management for Low-latency Cooperative Fine-tuning of Foundation Models at the Network Edge [35.40849522296486]
大規模ファウンデーションモデル(FoMos)は、人間のような知性を実現することができる。 FoMosは微調整技術により、特定の下流タスクに適応する必要がある。デバイスエッジ協調微調整パラダイムにおける多デバイス連携を提唱する。
論文参考訳（メタデータ） (2024-07-13T12:47:14Z)
Benchmarking End-To-End Performance of AI-Based Chip Placement Algorithms [77.71341200638416]
ChiPBenchはAIベースのチップ配置アルゴリズムの有効性を評価するために設計されたベンチマークである。評価のために、さまざまなドメイン(CPU、GPU、マイクロコントローラなど)から20の回路を集めました。その結果, 単点アルゴリズムの中間距離が支配的であったとしても, 最終的なPPA結果は満足できないことがわかった。
論文参考訳（メタデータ） (2024-07-03T03:29:23Z)
Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。 CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。 CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文参考訳（メタデータ） (2024-01-11T03:08:00Z)
FHEmem: A Processing In-Memory Accelerator for Fully Homomorphic Encryption [9.884698447131374]
ホモモルフィック暗号化(英: Homomorphic Encryption、FHE)は、暗号化データ上で任意の計算を復号化せずに実行できる技術である。 FHEは、暗号化後のデータサイズの増加により、普通のデータの計算よりも大幅に遅い。 PIMベースのFHEアクセラレータFHEmemを提案する。
論文参考訳（メタデータ） (2023-11-27T20:11:38Z)
REED: Chiplet-Based Accelerator for Fully Homomorphic Encryption [4.713756093611972]
本稿では,従来のモノリシック設計の限界を克服する,マルチチップベースのFHEアクセラレータREEDについて紹介する。その結果、REED 2.5Dマイクロプロセッサはチップ面積96.7 mm$2$、平均電力49.4Wを7nm技術で消費していることがわかった。
論文参考訳（メタデータ） (2023-08-05T14:04:39Z)
M3ICRO: Machine Learning-Enabled Compact Photonic Tensor Core based on PRogrammable Multi-Operand Multimode Interference [18.0155410476884]
標準光学部品に基づく光テンソルコア(PTC)の設計は、空間フットプリントが大きいため、スケーラビリティと計算密度を損なう。 M3ICROというプログラム可能なマルチモード干渉(MOMMI)デバイスを用いた超コンパクトPSCを提案する。 M3ICROは、フットプリントが3.4-9.6倍、1.6-4.4倍、計算密度が10.6-42倍、システムスループットが3.7-12倍、ノイズロバスト性が優れている。
論文参考訳（メタデータ） (2023-05-31T02:34:36Z)
Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文参考訳（メタデータ） (2023-05-11T02:02:53Z)
Transformer-based Context Condensation for Boosting Feature Pyramids in Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文参考訳（メタデータ） (2022-07-14T01:45:03Z)
Efficient Micro-Structured Weight Unification and Pruning for Neural Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文参考訳（メタデータ） (2021-06-15T17:22:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。