論文の概要: Clone What You Can't Steal: Black-Box LLM Replication via Logit Leakage and Distillation
- arxiv url: http://arxiv.org/abs/2509.00973v1
- Date: Sun, 31 Aug 2025 19:38:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.483093
- Title: Clone What You Can't Steal: Black-Box LLM Replication via Logit Leakage and Distillation
- Title(参考訳): Black-Box LLMの複製は、ログリークと蒸留でできる
- Authors: Kanchon Gharami, Hansaka Aluvihare, Shafika Showkat Moni, Berker Peköz,
- Abstract要約: 部分ロジットリークを,機能的デプロイ可能な代替モデルクローンに変換する,制約付きレプリケーションパイプラインを導入する。
6層の生徒が6層の教師モデルの隠れ状態幾何の97.6%を再現し、7.31%のパープレキシティが増加している。
4層版では17.1%高速な推論と18.1%パラメータ削減を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in mission-critical systems, facilitating tasks such as satellite operations, command-and-control, military decision support, and cyber defense. Many of these systems are accessed through application programming interfaces (APIs). When such APIs lack robust access controls, they can expose full or top-k logits, creating a significant and often overlooked attack surface. Prior art has mainly focused on reconstructing the output projection layer or distilling surface-level behaviors. However, regenerating a black-box model under tight query constraints remains underexplored. We address that gap by introducing a constrained replication pipeline that transforms partial logit leakage into a functional deployable substitute model clone. Our two-stage approach (i) reconstructs the output projection matrix by collecting top-k logits from under 10k black-box queries via singular value decomposition (SVD) over the logits, then (ii) distills the remaining architecture into compact student models with varying transformer depths, trained on an open source dataset. A 6-layer student recreates 97.6% of the 6-layer teacher model's hidden-state geometry, with only a 7.31% perplexity increase, and a 7.58 Negative Log-Likelihood (NLL). A 4-layer variant achieves 17.1% faster inference and 18.1% parameter reduction with comparable performance. The entire attack completes in under 24 graphics processing unit (GPU) hours and avoids triggering API rate-limit defenses. These results demonstrate how quickly a cost-limited adversary can clone an LLM, underscoring the urgent need for hardened inference APIs and secure on-premise defense deployments.
- Abstract(参考訳): 大型言語モデル (LLM) は、衛星運用、指揮統制、軍事的決定支援、サイバー防衛といったタスクを容易にし、ミッションクリティカルなシステムにますます導入されている。
これらのシステムの多くは、アプリケーションプログラミングインタフェース(API)を通してアクセスされる。
このようなAPIにロバストなアクセスコントロールがない場合、フルあるいはトップkロジットを公開して、重要で見落とされがちなアタックサーフェスを生成することができる。
先行技術は主に、出力プロジェクション層を再構築したり、表面レベルの振る舞いを蒸留することに焦点を当ててきた。
しかし、厳密なクエリ制約下でのブラックボックスモデルの再生成は未定である。
我々は、部分ロジットリークを機能的なデプロイ可能な代替モデルクローンに変換する、制約付きレプリケーションパイプラインを導入することで、このギャップに対処する。
私たちの二段階アプローチ
(i)出力プロジェクション行列を10k以下のブラックボックスクエリから特異値分解(SVD)を介して収集し、それから出力プロジェクション行列を再構成する。
(II)残余のアーキテクチャを、オープンソースのデータセットでトレーニングされたトランスフォーマー深さの異なる、コンパクトな学生モデルに蒸留する。
6層の生徒が6層の教師モデルの隠れ状態幾何の97.6%を再現し、7.31%のパープレクティリティ増加、7.58の負のログライクリーフ(NLL)がある。
4層版では17.1%高速な推論と18.1%パラメータ削減を実現している。
攻撃全体が24時間以内のグラフィックス処理ユニット(GPU)で完了し、APIレート制限防御のトリガーを回避する。
これらの結果は、コスト制限された敵がLLMを素早くクローンできることを示し、強化された推論APIとセキュアなオンプレミス防御デプロイメントの必要性を浮き彫りにしている。
関連論文リスト
- CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization [7.282200564983221]
大規模言語モデル(LLM)は、隠れたトリガーを介して出力を操作するバックドア攻撃に対して脆弱である。
本稿では,バックドアモデルがトリガ時に不安定な層単位の隠蔽表現を示すという観測を生かした内部一貫性規則化(CROW)を提案する。
CROWは、微調整やバックドアの中立化など、クリーンな参照モデルや知識のトリガを必要とせず、小さなクリーンなデータセットのみを使用して、レイヤ間の一貫性を強制する。
論文 参考訳(メタデータ) (2024-11-18T07:52:12Z) - Data Extraction Attacks in Retrieval-Augmented Generation via Backdoors [15.861833242429228]
本稿では,RAGの知識データベースを対象としたデータ抽出攻撃について検討する。
従来のインジェクションベース抽出攻撃はLLMの命令追従能力に大きく依存していた。
筆者らは, LLM内のバックドアを作成するために, 微調整期間中に少量の有毒データを注入するバックドアRAGを提案する。
論文 参考訳(メタデータ) (2024-11-03T22:27:40Z) - Position: On-Premises LLM Deployment Demands a Middle Path: Preserving Privacy Without Sacrificing Model Confidentiality [18.575663556525864]
ユーザ制御インフラストラクチャにクローズドソース LLM をデプロイすることで、データのプライバシが向上し、誤用リスクを軽減できる、と我々は主張する。
十分に設計されたオンプレミスデプロイメントでは、モデル盗難を防止することによって、モデルの機密性を保証し、プライバシ保護のカスタマイズを提供する必要がある。
私たちの調査結果は、プライバシと機密性が共存可能であることを示し、オンプレミスのAIデプロイメントをセキュアにする方法を確立しました。
論文 参考訳(メタデータ) (2024-10-15T02:00:36Z) - ASPIRER: Bypassing System Prompts With Permutation-based Backdoors in LLMs [17.853862145962292]
システムプロンプトを体系的に回避する新しいバックドアアタックを導入する。
本手法は,98.58%のクリーン精度(CACC)を維持しつつ,攻撃成功率(ASR)を99.50%まで達成する。
論文 参考訳(メタデータ) (2024-10-05T02:58:20Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes [61.916827858666906]
大規模言語モデル(LLM)は、ユーザがクエリを入力し、LLMが回答を生成する、顕著な生成AIツールになりつつある。
害と誤用を減らすため、人間のフィードバックからの強化学習のような高度な訓練技術を用いて、これらのLLMを人間の価値に合わせる努力がなされている。
近年の研究では、組込み安全ガードレールを転覆させようとする敵のジェイルブレイクの試みに対するLLMの脆弱性を強調している。
本稿では,脱獄を検知するGradient Cuffという手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:29:54Z) - BESA: Pruning Large Language Models with Blockwise Parameter-Efficient Sparsity Allocation [54.28841287750586]
大規模言語モデル(LLM)は、テキスト要約、テキスト質問応答など、様々なタスクにおいて優れたパフォーマンスを示してきた。
SparseGPTやWandaといった既存のソリューションは、重み付けによってこの問題を緩和しようと試みている。
本稿では,ブロックワイド再構成損失を適用して,ブロックワイドパラメータ効率の空間割当(BESA)と呼ばれる新しいLCMプルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T12:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。