論文の概要: Stealing Part of a Production Language Model
- arxiv url: http://arxiv.org/abs/2403.06634v1
- Date: Mon, 11 Mar 2024 11:46:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-17 13:37:51.383772
- Title: Stealing Part of a Production Language Model
- Title(参考訳): 生産言語モデルの一部をステアリングする
- Authors: Nicholas Carlini, Daniel Paleka, Krishnamurthy Dj Dvijotham, Thomas Steinke, Jonathan Hayase, A. Feder Cooper, Katherine Lee, Matthew Jagielski, Milad Nasr, Arthur Conmy, Eric Wallace, David Rolnick, Florian Tramèr,
- Abstract要約: 生産言語モデルから正確な非自明な情報を抽出する最初のモデルステーリング攻撃を導入する。
20ドル以下で、我々の攻撃はOpenAIのAdaおよびBabage言語モデル全体のプロジェクションマトリックスを抽出する。
- 参考スコア(独自算出の注目度): 101.55642629708026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the first model-stealing attack that extracts precise, nontrivial information from black-box production language models like OpenAI's ChatGPT or Google's PaLM-2. Specifically, our attack recovers the embedding projection layer (up to symmetries) of a transformer model, given typical API access. For under \$20 USD, our attack extracts the entire projection matrix of OpenAI's Ada and Babbage language models. We thereby confirm, for the first time, that these black-box models have a hidden dimension of 1024 and 2048, respectively. We also recover the exact hidden dimension size of the gpt-3.5-turbo model, and estimate it would cost under \$2,000 in queries to recover the entire projection matrix. We conclude with potential defenses and mitigations, and discuss the implications of possible future work that could extend our attack.
- Abstract(参考訳): 我々は,OpenAIのChatGPTやGoogleのPaLM-2といったブラックボックス生産言語モデルから,正確な非自明な情報を抽出する最初のモデルステーリング攻撃を導入する。
具体的には、典型的なAPIアクセスを前提として、トランスモデルの埋め込みプロジェクション層(対称性まで)を回復する。
20ドル以下では,OpenAI の Ada および Babbage 言語モデル全体のプロジェクション行列を抽出する。
これにより、これらのブラックボックスモデルは、それぞれ1024と2048の隠れ次元を持つことを確認した。
また、gpt-3.5-turboモデルの正確な次元サイズを復元し、プロジェクション行列全体を復元するために2000ドル以下のクエリを見積もる。
我々は、潜在的防衛と緩和で締めくくり、我々の攻撃を拡大できる将来の仕事の可能性について論じる。
関連論文リスト
- Exploiting the Vulnerability of Large Language Models via Defense-Aware Architectural Backdoor [0.24335447922683692]
基盤となるモデルアーキテクチャ内に隠蔽する新しいタイプのバックドアアタックを導入します。
モデルアーキテクチャレイヤのアドオンモジュールは、入力トリガトークンの存在を検出し、レイヤの重みを変更することができる。
我々は,5つの大言語データセットの2つのモデルアーキテクチャ設定を用いて,攻撃方法を評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-09-03T14:54:16Z) - Scalable Extraction of Training Data from (Production) Language Models [93.7746567808049]
本稿では,学習データセットの事前知識を必要とせず,機械学習モデルに問い合わせることで,相手が効率的に抽出できる学習データについて検討する。
敵は、PythiaやGPT-Neoのようなオープンソースの言語モデル、LLaMAやFalconのようなセミオープンモデル、ChatGPTのようなクローズドモデルから、ギガバイトのトレーニングデータを抽出できることを示す。
論文 参考訳(メタデータ) (2023-11-28T18:47:03Z) - DREAM: Domain-free Reverse Engineering Attributes of Black-box Model [51.37041886352823]
ブラックボックス対象モデルの属性をドメインに依存しないリバースエンジニアリングの新しい問題を提案する。
対象のブラックボックスモデルの属性を未知のトレーニングデータで推測するために,ドメインに依存しないモデルを学ぶ。
論文 参考訳(メタデータ) (2023-07-20T16:25:58Z) - Reinforcement Learning-Based Black-Box Model Inversion Attacks [23.30144908939099]
モデル反転攻撃は、機械学習モデルのトレーニングに使用されるプライベートデータを再構築する。
パブリックデータセットから知識を抽出するためにGAN(Generative Adversarial Networks)を利用したホワイトボックスモデルインバージョン攻撃が注目されている。
強化学習に基づくブラックボックスモデルインバージョン攻撃を提案する。
論文 参考訳(メタデータ) (2023-04-10T14:41:16Z) - Backdoor Attacks on Crowd Counting [63.90533357815404]
クラウドカウント(Crowd counting)は、シーンイメージ内の人数を推定する回帰タスクである。
本稿では,深層学習に基づくクラウドカウントモデルのバックドア攻撃に対する脆弱性について検討する。
論文 参考訳(メタデータ) (2022-07-12T16:17:01Z) - How to Robustify Black-Box ML Models? A Zeroth-Order Optimization
Perspective [74.47093382436823]
入力クエリと出力フィードバックだけでブラックボックスモデルを堅牢化する方法?
我々は,ブラックボックスモデルに適用可能な防御操作の一般的な概念を提案し,それを復号化スムーシング(DS)のレンズを通して設計する。
我々は,ZO-AE-DSが既存のベースラインよりも精度,堅牢性,クエリの複雑さを向上できることを実証的に示す。
論文 参考訳(メタデータ) (2022-03-27T03:23:32Z) - MEGEX: Data-Free Model Extraction Attack against Gradient-Based
Explainable AI [1.693045612956149]
機械学習・アズ・ア・サービス(ML)にデプロイされたディープニューラルネットワークは、モデル抽出攻撃の脅威に直面している。
モデル抽出攻撃は知的財産権とプライバシーを侵害する攻撃であり、敵は予測だけを使用してクラウド内の訓練されたモデルを盗む。
本稿では、勾配に基づく説明可能なAIに対するデータフリーモデル抽出攻撃であるMEGEXを提案する。
論文 参考訳(メタデータ) (2021-07-19T14:25:06Z) - Imitation Attacks and Defenses for Black-box Machine Translation Systems [86.92681013449682]
ブラックボックス機械翻訳(MT)システムは高い商業価値を持ち、エラーはコストがかかる。
MTシステムはモノリンガル文を問合せし,その出力を模倣する訓練モデルを用いて盗むことができることを示す。
本稿では,模倣モデルの最適化を誤指示するために,翻訳出力を変更するディフェンスを提案する。
論文 参考訳(メタデータ) (2020-04-30T17:56:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。