論文の概要: Your Inference Request Will Become a Black Box: Confidential Inference for Cloud-based Large Language Models
- arxiv url: http://arxiv.org/abs/2603.00196v1
- Date: Fri, 27 Feb 2026 06:37:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.099911
- Title: Your Inference Request Will Become a Black Box: Confidential Inference for Cloud-based Large Language Models
- Title(参考訳): あなたの推論要求がブラックボックスになる:クラウドベースの大規模言語モデルの信頼性推論
- Authors: Chung-ju Huang, Huiqiang Zhao, Yuanpeng He, Lijian Li, Wenpin Jiao, Zhi Jin, Peixuan Chen, Leye Wang,
- Abstract要約: Talariaは、クライアントデータを保護するためにLarge Language Modelsパイプラインを分割する機密推論フレームワークである。
Talariaは、クライアントが制御するConfidential Virtual Machine内で、機密で重量に依存しない操作を実行する。
タラリアは最先端のトークン推論攻撃に対して防御でき、トークン再構成の精度は97.5%以上から平均1.34%まで低下する。
- 参考スコア(独自算出の注目度): 39.390624817461905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing reliance on cloud-hosted Large Language Models (LLMs) exposes sensitive client data, such as prompts and responses, to potential privacy breaches by service providers. Existing approaches fail to ensure privacy, maintain model performance, and preserve computational efficiency simultaneously. To address this challenge, we propose Talaria, a confidential inference framework that partitions the LLM pipeline to protect client data without compromising the cloud's model intellectual property or inference quality. Talaria executes sensitive, weight-independent operations within a client-controlled Confidential Virtual Machine (CVM) while offloading weight-dependent computations to the cloud GPUs. The interaction between these environments is secured by our Reversible Masked Outsourcing (ReMO) protocol, which uses a hybrid masking technique to reversibly obscure intermediate data before outsourcing computations. Extensive evaluations show that Talaria can defend against state-of-the-art token inference attacks, reducing token reconstruction accuracy from over 97.5% to an average of 1.34%, all while being a lossless mechanism that guarantees output identical to the original model without significantly decreasing efficiency and scalability. To the best of our knowledge, this is the first work that ensures clients' prompts and responses remain inaccessible to the cloud, while also preserving model privacy, performance, and efficiency.
- Abstract(参考訳): クラウドでホストされるLarge Language Models(LLMs)への依存度の増加は、プロンプトやレスポンスといった機密性の高いクライアントデータを、サービスプロバイダによる潜在的なプライバシー侵害に公開する。
既存のアプローチは、プライバシの確保、モデルパフォーマンスの維持、計算効率の同時維持に失敗する。
この課題に対処するため,クラウドのモデル知的特性や推論品質を損なうことなく,LLMパイプラインを分割してクライアントデータを保護する秘密推論フレームワークであるTalariaを提案する。
Talariaは、クライアント制御されたConfidential Virtual Machine(CVM)内で、機密性の高い、重みに依存しない操作を実行すると同時に、重みに依存しない計算をクラウドGPUにオフロードする。
これらの環境間のインタラクションは、Reversible Masked Outsourcing (ReMO)プロトコルによって保護されます。
大規模な評価では、タラリアは最先端のトークン推論攻撃に対して防御でき、トークン再構成の精度を97.5%以上から平均1.34%まで下げる一方で、効率とスケーラビリティを著しく低下させることなくオリジナルのモデルと同一の出力を保証する無損失メカニズムであることを示している。
私たちの知る限りでは、モデルプライバシ、パフォーマンス、効率を保ちながら、クライアントのプロンプトとレスポンスがクラウドにアクセスできないことを保証する最初の作業です。
関連論文リスト
- ZORRO: Zero-Knowledge Robustness and Privacy for Split Learning (Full Version) [58.595691399741646]
Split Learning(SL)は、リソース制約のあるクライアントがディープニューラルネットワーク(DNN)を協調的にトレーニングすることを可能にする分散学習アプローチである。
このセットアップにより、SLはデータを共有せずにサーバの能力を活用することができ、機密データを扱うリソース制約のある環境で非常に効果的になる。
我々は、プライベートで検証可能な、堅牢なSL防御スキームであるZORROを提示する。
論文 参考訳(メタデータ) (2025-09-11T18:44:09Z) - Efficient and Verifiable Privacy-Preserving Convolutional Computation for CNN Inference with Untrusted Clouds [1.1545092788508224]
本稿では,CNN畳み込み層に適したプライバシー保護手法を提案する。
提案方式は,効率的な暗号化と復号化を可能にし,リソース制約のあるクライアントが信頼できないクラウドサーバにセキュアに計算をオフロードできるようにする。
論文 参考訳(メタデータ) (2025-08-18T11:17:53Z) - PWC-MoE: Privacy-Aware Wireless Collaborative Mixture of Experts [59.5243730853157]
クラウドサーバにホストされる大規模言語モデル(LLM)は、ローカルデバイス上の計算とストレージの負担を軽減するが、プライバシの懸念を高める。
小規模言語モデル(SLM)は、ローカルで実行されるためプライバシーが向上するが、複雑なタスクではパフォーマンスが制限される。
帯域幅制約下での計算コスト,性能,プライバシ保護のバランスをとるために,プライバシを意識したPWC-MoE(PWC-MoE)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:27:07Z) - FedEM: A Privacy-Preserving Framework for Concurrent Utility Preservation in Federated Learning [17.853502904387376]
Federated Learning (FL)は、分散クライアント間で、ローカルデータを共有せずにモデルの協調的なトレーニングを可能にし、分散システムにおけるプライバシの問題に対処する。
適応雑音注入による制御摂動を組み込んだ新しいアルゴリズムであるフェデレートエラー最小化(FedEM)を提案する。
ベンチマークデータセットの実験結果から、FedEMはプライバシのリスクを著しく低減し、モデルの正確性を保ち、プライバシ保護とユーティリティ保護の堅牢なバランスを達成している。
論文 参考訳(メタデータ) (2025-03-08T02:48:00Z) - Communication-Efficient and Privacy-Adaptable Mechanism for Federated Learning [54.20871516148981]
通信効率・プライバシー適応メカニズム(CEPAM)について紹介する。
CEPAMは通信効率とプライバシー保護を同時に達成する。
我々は、CEPAMのプライバシー保証を理論的に分析し、CEPAMのユーザプライバシと正確性の間のトレードオフを調査する。
論文 参考訳(メタデータ) (2025-01-21T11:16:05Z) - How Breakable Is Privacy: Probing and Resisting Model Inversion Attacks in Collaborative Inference [13.453033795109155]
協調推論は、中間機能をクラウドモデルに伝達することでエッジデバイスの計算効率を向上させる。
モデル逆攻撃(MIA)の難しさを評価するための確立された基準はない。
本稿では、CIにおけるMIAの難易度を評価するための最初の理論的基準を提案し、相互情報、エントロピー、有効情報量などを重要な要因として同定する。
論文 参考訳(メタデータ) (2025-01-01T13:00:01Z) - Privacy-Preserving Verifiable Neural Network Inference Service [4.131956503199438]
我々は,クライアントデータサンプルのプライバシを保存するために,プライバシ保護と検証が可能なCNN推論手法を開発した。
vPINは、クライアントデータのプライバシ保証と証明可能な検証性を提供しながら、証明サイズの観点から高い効率を達成する。
論文 参考訳(メタデータ) (2024-11-12T01:09:52Z) - ACCESS-FL: Agile Communication and Computation for Efficient Secure Aggregation in Stable Federated Learning Networks [26.002975401820887]
Federated Learning(FL)は、プライバシ対応アプリケーション用に設計された分散学習フレームワークである。
従来のFLは、プレーンモデルのアップデートがサーバに送信されると、機密性の高いクライアントデータを露出するリスクにアプローチする。
GoogleのSecure Aggregation(SecAgg)プロトコルは、二重マスキング技術を使用することで、この脅威に対処する。
通信・計算効率の高いセキュアアグリゲーション手法であるACCESS-FLを提案する。
論文 参考訳(メタデータ) (2024-09-03T09:03:38Z) - Privacy-Preserving, Dropout-Resilient Aggregation in Decentralized Learning [3.9166000694570076]
分散学習(DL)は、集中集約なしでクライアントにトレーニングを分散することで、機械学習の新たなパラダイムを提供する。
DLのピアツーピアモデルは、推論攻撃やプライバシリークを防ぐための課題を提起する。
本研究は,プライバシ保護DLのための3つの秘密共有型ドロップアウトレジリエンスアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-27T19:17:02Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z) - Over-the-Air Federated Learning with Privacy Protection via Correlated
Additive Perturbations [57.20885629270732]
我々は、複数のユーザ/エージェントからエッジサーバへの勾配更新をOtA(Over-the-Air)で送信することで、無線フェデレーション学習のプライバシー面を考察する。
従来の摂動に基づく手法は、トレーニングの精度を犠牲にしてプライバシー保護を提供する。
本研究では,エッジサーバにおけるプライバシリークの最小化とモデル精度の低下を目標とする。
論文 参考訳(メタデータ) (2022-10-05T13:13:35Z) - Federated Learning with Unreliable Clients: Performance Analysis and
Mechanism Design [76.29738151117583]
Federated Learning(FL)は、分散クライアント間で効果的な機械学習モデルをトレーニングするための有望なツールとなっている。
しかし、低品質のモデルは信頼性の低いクライアントによってアグリゲータサーバにアップロードすることができ、劣化やトレーニングの崩壊につながる。
クライアントの信頼できない振る舞いをモデル化し、このようなセキュリティリスクを軽減するための防御メカニズムを提案する。
論文 参考訳(メタデータ) (2021-05-10T08:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。