論文の概要: SecDTD: Dynamic Token Drop for Secure Transformers Inference
- arxiv url: http://arxiv.org/abs/2603.13670v1
- Date: Sat, 14 Mar 2026 00:37:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.33016
- Title: SecDTD: Dynamic Token Drop for Secure Transformers Inference
- Title(参考訳): SecDTD: セキュアトランスフォーマー推論のための動的トークンドロップ
- Authors: Yifei Cai, Zhuoran Li, Yizhou Feng, Qiao Zhang, Hongyi Wu, Danella Zhao, Chunsheng Xin,
- Abstract要約: SecDTDは、セキュアなTransformer推論に適した動的トークンドロップスキームである。
最大中心正規化(Max-Centric Normalization)とOMSel(OMSel)の2つのコア技術を紹介する。
SecDTDは精度を低下させることなく、エンドツーエンドの推論アクセラレーションの4.47倍を達成する。
- 参考スコア(独自算出の注目度): 16.49992671682782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid adoption of Transformer-based AI has been driven by accessible models such as ChatGPT, which provide API-based services for developers and businesses. However, as these online inference services increasingly handle sensitive inputs, privacy concerns have emerged as a significant challenge. To address this, secure inference frameworks have been proposed, but their high computational and communication overhead often limit practical deployment. In plaintext settings, token drop is an effective technique for reducing inference cost; however, our analysis reveals that directly applying such methods to ciphertext scenarios is suboptimal due to distinct cost distributions in secure computation. We propose SecDTD, a dynamic token drop scheme tailored for secure Transformer inference. SecDTD advances token drop by shifting the dropping to earlier inference stages, effectively reducing the cost of key components such as Softmax. To support this, we introduce two core techniques. Max-Centric Normalization (MCN): A novel, Softmax-independent scoring method that enables early token drop with minimal overhead and improved normalization, supporting more aggressive dropping without accuracy loss. OMSel: A faster, oblivious median selection protocol that securely identifies the median of importance scores to support token drop. Compared to existing sorting-based methods, OMSel achieves a 16.9$\times$ speedup while maintaining security, obliviousness and randomness. We evaluate SecDTD through 48 experiments across eight GLUE datasets under various network settings using the BOLT and BumbleBee frameworks. SecDTD achieves 4.47 times end-to-end inference acceleration without degradation in accuracy.
- Abstract(参考訳): TransformerベースのAIの急速な採用は、開発者やビジネスにAPIベースのサービスを提供するChatGPTのような、アクセス可能なモデルによって推進されている。
しかし、これらのオンライン推論サービスがセンシティブな入力を処理する傾向にあるため、プライバシーに関する懸念が重大な課題として浮上している。
これを解決するためにセキュアな推論フレームワークが提案されているが、計算と通信のオーバーヘッドが高いため、現実的なデプロイが制限されることが多い。
平文設定では、トークンドロップは推論コストを削減する効果的な手法であるが、セキュアな計算ではコスト分布が異なるため、このような手法を暗号文のシナリオに直接適用することは最適ではない。
セキュアなTransformer推論に適した動的トークンドロップスキームであるSecDTDを提案する。
SecDTDは、ドロップを初期の推論ステージにシフトすることでトークンのドロップを前進させ、Softmaxのようなキーコンポーネントのコストを効果的に削減する。
これをサポートするために,2つのコア技術を紹介した。
Max-Centric Normalization (MCN): 最小オーバーヘッドで早期トークンのドロップを可能にする新しいSoftmax非依存スコアリング手法。
OMSel: トークンドロップをサポートするために重要度スコアの中央値をセキュアに識別する,高速で曖昧な中央値選択プロトコル。
既存のソート方式と比較すると、OMSelはセキュリティ、曖昧さ、ランダム性を保ちながら16.9$\times$のスピードアップを実現している。
我々は,BOLTおよびBumbleBeeフレームワークを用いて,8つのGLUEデータセットを対象としたSecDTDを48実験で評価した。
SecDTDは精度を低下させることなく、エンドツーエンドの推論アクセラレーションの4.47倍を達成する。
関連論文リスト
- Information-Dense Reasoning for Efficient and Auditable Security Alert Triage [5.3761282240937796]
セキュリティオペレーションセンターは、分単位のサービスウィンドウの下で、巨大で異質なアラートストリームに直面します。
既存のソリューションは失敗する:シグネチャシステムは不安定で、異常なメソッドには動作性がなく、完全にクラウドでホストされたLLMはレイテンシ、コスト、プライバシの懸念を高める。
制約のある情報特化最適化を通じて、このトレードオフに対処するハイブリッドクラウドオンプレミスフレームワークであるAIDRを提案する。
論文 参考訳(メタデータ) (2025-12-09T01:57:24Z) - Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - Confidence-gated training for efficient early-exit neural networks [49.78598138251519]
初期段階のニューラルネットワークは、中間層での確実な予測を可能にすることにより、推論コストを低減する。
我々は,前回の出口が故障した場合のみ,より深い出口からの勾配を条件的に伝播させるパラダイムである信頼性訓練(CGT)を提案する。
論文 参考訳(メタデータ) (2025-09-22T15:18:21Z) - Privacy-Preserving Inference for Quantized BERT Models [13.36359444231145]
量子化は浮動小数点演算を低精度整数計算に変換することで有望な解を提供する。
本研究では, 層単位での微細な量子化手法を提案し, 1ビットの重み付き全連結層をセキュアな設定で支持する。
論文 参考訳(メタデータ) (2025-08-03T07:52:08Z) - MIBP-Cert: Certified Training against Data Perturbations with Mixed-Integer Bilinear Programs [50.41998220099097]
トレーニング中のデータエラー、汚職、中毒攻撃は、現代のAIシステムの信頼性に大きな脅威をもたらす。
混合整数双線形プログラミング(MIBP)に基づく新しい認証手法MIBP-Certを紹介する。
摂動データや操作データを通じて到達可能なパラメータの集合を計算することで、可能なすべての結果を予測することができ、堅牢性を保証することができる。
論文 参考訳(メタデータ) (2024-12-13T14:56:39Z) - Cost-Effective Fault Tolerance for CNNs Using Parameter Vulnerability Based Hardening and Pruning [0.4660328753262075]
本稿では,ニューラルネットワークに誤り訂正を直接組み込むことにより,CNNのモデルレベル硬化手法を提案する。
提案手法は,TMRに基づく補正とほぼ同等の耐故障性を示すが,オーバーヘッドは大幅に減少する。
注目すべきは、硬化したpruned CNNは、硬化したun-prunedよりも最大24%高速であることだ。
論文 参考訳(メタデータ) (2024-05-17T09:42:44Z) - Tiny Deep Ensemble: Uncertainty Estimation in Edge AI Accelerators via Ensembling Normalization Layers with Shared Weights [0.8233872344445676]
AI駆動システムでは、不確実性推定により、ユーザーは過信予測を避け、機能的安全性を達成することができる。
エッジデバイスにおける不確実性推定のための低コストなアプローチであるTiny-Deep Ensembleアプローチを提案する。
提案手法は精度を損なわないが,予測精度は最大で$sim 1%$,RMSEは17.17%$である。
論文 参考訳(メタデータ) (2024-05-07T22:54:17Z) - Constraint-aware and Ranking-distilled Token Pruning for Efficient
Transformer Inference [18.308180927492643]
ToPは、未精製モデルの最終層から初期精製モデルまで有効なトークンランキングを蒸留する、希釈型トークン蒸留技術である。
ToPは、GLUE上での競合精度を達成しつつ、BERTの平均FLOPを8.1倍削減し、Intel CPU上では7.4倍の遅延速度を提供する。
論文 参考訳(メタデータ) (2023-06-26T03:06:57Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Bayesian Optimization with Machine Learning Algorithms Towards Anomaly
Detection [66.05992706105224]
本稿では,ベイズ最適化手法を用いた効果的な異常検出フレームワークを提案する。
ISCX 2012データセットを用いて検討したアルゴリズムの性能を評価する。
実験結果から, 精度, 精度, 低コストアラームレート, リコールの観点から, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-08-05T19:29:35Z) - A Privacy-Preserving-Oriented DNN Pruning and Mobile Acceleration
Framework [56.57225686288006]
モバイルエッジデバイスの限られたストレージとコンピューティング能力を満たすために、ディープニューラルネットワーク(DNN)の軽量プルーニングが提案されている。
従来のプルーニング手法は主に、ユーザデータのプライバシを考慮せずに、モデルのサイズを減らしたり、パフォーマンスを向上させることに重点を置いていた。
プライベートトレーニングデータセットを必要としないプライバシ保護指向のプルーニングおよびモバイルアクセラレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T23:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。