論文の概要: Can't Hide Behind the API: Stealing Black-Box Commercial Embedding Models
- arxiv url: http://arxiv.org/abs/2406.09355v1
- Date: Thu, 13 Jun 2024 17:40:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 22:09:00.140719
- Title: Can't Hide Behind the API: Stealing Black-Box Commercial Embedding Models
- Title(参考訳): APIの裏には隠せない:ブラックボックスの商用埋め込みモデルをステアリングする
- Authors: Manveer Singh Tamber, Jasper Xian, Jimmy Lin,
- Abstract要約: OpenAIやCohereといった企業は,ユーザが使用料を支払わなければならないAPIを通じてアクセスされる,競合する埋め込みモデルを開発した。
我々の知る限りでは、これらのモデルを商用APIから得られたテキスト埋め込みペア上でローカルモデルをトレーニングすることで、検索を"スティル"するための最初の取り組みを提示する。
- 参考スコア(独自算出の注目度): 47.13042922690422
- License:
- Abstract: Embedding models that generate representation vectors from natural language text are widely used, reflect substantial investments, and carry significant commercial value. Companies such as OpenAI and Cohere have developed competing embedding models accessed through APIs that require users to pay for usage. In this architecture, the models are "hidden" behind APIs, but this does not mean that they are "well guarded". We present, to our knowledge, the first effort to "steal" these models for retrieval by training local models on text-embedding pairs obtained from the commercial APIs. Our experiments show using standard benchmarks that it is possible to efficiently replicate the retrieval effectiveness of the commercial embedding models using an attack that costs only around $200 to train (presumably) smaller models with fewer dimensions. Our findings raise important considerations for deploying commercial embedding models and suggest measures to mitigate the risk of model theft.
- Abstract(参考訳): 自然言語テキストから表現ベクトルを生成する埋め込みモデルは、広く使われ、かなりの投資を反映し、かなりの商業価値を持つ。
OpenAIやCohereといった企業は,ユーザが使用料を支払わなければならないAPIを通じてアクセスされる,競合する埋め込みモデルを開発した。
このアーキテクチャでは、モデルはAPIの後ろに"隠されている"が、これは"十分に守られている"という意味ではない。
我々の知る限りでは、これらのモデルを商用APIから得られたテキスト埋め込みペア上でローカルモデルをトレーニングすることで、検索を"スティル"するための最初の取り組みを提示する。
本実験では, より少ない寸法の小型モデルの訓練に200ドル程度しかかからないアタックを用いて, 市販の埋め込みモデルの検索効率を効率的に再現できることを, 標準ベンチマークを用いて示した。
本研究は, 商用埋込モデルの展開に関する重要な考察を提起し, モデル盗難のリスクを軽減するための対策を提案する。
関連論文リスト
- Stealing Image-to-Image Translation Models With a Single Query [24.819964498441635]
画像と画像のモデルを盗む可能性について検討する。
このようなモデルの多くは、1つの小さなクエリイメージで盗むことができる。
注目すべきは、攻撃を盗む脆弱性は、CNNや注意機構を持つモデルによって共有されていることだ。
論文 参考訳(メタデータ) (2024-06-02T18:30:41Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Beyond Labeling Oracles: What does it mean to steal ML models? [52.63413852460003]
モデル抽出攻撃は、クエリアクセスのみで訓練されたモデルを盗むように設計されている。
モデル抽出攻撃の成功に影響を及ぼす要因について検討する。
我々は,ME攻撃の敵の目標を再定義するようコミュニティに促した。
論文 参考訳(メタデータ) (2023-10-03T11:10:21Z) - Petals: Collaborative Inference and Fine-tuning of Large Models [78.37798144357977]
多くのNLPタスクは、1000億以上のパラメータを持つ大きな言語モデル(LLM)を使用することで恩恵を受ける。
BLOOM-176BとOPT-175Bのリリースにより、誰もがこのスケールで事前訓練されたモデルをダウンロードできる。
我々は,大規模モデルの推測と微調整を協調的に行うシステムとして,Petals $-$を提案する。
論文 参考訳(メタデータ) (2022-09-02T17:38:03Z) - MOVE: Effective and Harmless Ownership Verification via Embedded
External Features [109.19238806106426]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
特に、包括的モデル保護を提供するために、ホワイトボックスとブラックボックスの両方の設定でMOVE法を開発した。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z) - On the Difficulty of Defending Self-Supervised Learning against Model
Extraction [23.497838165711983]
SSL(Self Supervised Learning)は、複雑な入力を明示的なラベルに頼ることなく表現に変換するモデルを訓練するMLパラダイムである。
本稿ではSSLに対するモデル盗難攻撃について検討する。
いくつかの新たな攻撃を構築し、被害者の盗難表現を直接訓練するアプローチがクエリ効率が高く、下流モデルに高い精度で適用可能であることを発見した。
論文 参考訳(メタデータ) (2022-05-16T17:20:44Z) - Increasing the Cost of Model Extraction with Calibrated Proof of Work [25.096196576476885]
モデル抽出攻撃では、敵はパブリックAPIを通じて公開された機械学習モデルを盗むことができる。
我々は,モデルの予測を読み取る前に,ユーザが作業の証明を完了するように提案する。
論文 参考訳(メタデータ) (2022-01-23T12:21:28Z) - Defending against Model Stealing via Verifying Embedded External
Features [90.29429679125508]
トレーニングサンプルがなく、モデルパラメータや構造にアクセスできない場合でも、敵はデプロイされたモデルを盗むことができる。
我々は、不審なモデルがディフェンダー特定遠近法の特徴の知識を含んでいるかどうかを検証することによって、他の角度からの防御を探索する。
本手法は, 複数段階の盗難処理によって盗難モデルが得られた場合でも, 同時に異なる種類の盗難モデルを検出するのに有効である。
論文 参考訳(メタデータ) (2021-12-07T03:51:54Z) - Beyond Model Extraction: Imitation Attack for Black-Box NLP APIs [36.258615610948524]
攻撃者は、教師なしのドメイン適応とマルチヴィクティ・アンサンブルによって、被害者を追い越す可能性があることを示す。
本研究では,攻撃者が非教師なしのドメイン適応とマルチヴィクティ・アンサンブルによって,被害者を追い越す可能性を示す第一歩を踏み出した。
論文 参考訳(メタデータ) (2021-08-29T10:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。