論文の概要: Model Stealing for Any Low-Rank Language Model
- arxiv url: http://arxiv.org/abs/2411.07536v1
- Date: Tue, 12 Nov 2024 04:25:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:19:31.196973
- Title: Model Stealing for Any Low-Rank Language Model
- Title(参考訳): 低ランク言語モデルのためのモデルステアリング
- Authors: Allen Liu, Ankur Moitra,
- Abstract要約: 我々は、単純で数学的に計算可能な設定を研究することによって、言語モデルを盗むという理論的理解を構築する。
我々の主な成果は、低ランク分布を学習するための条件付きクエリモデルにおける効率的なアルゴリズムである。
これは、少なくとも理論的には、推論時に機械学習モデルがより複雑な問題を解くことができるという興味深い例である。
- 参考スコア(独自算出の注目度): 25.16701867917684
- License:
- Abstract: Model stealing, where a learner tries to recover an unknown model via carefully chosen queries, is a critical problem in machine learning, as it threatens the security of proprietary models and the privacy of data they are trained on. In recent years, there has been particular interest in stealing large language models (LLMs). In this paper, we aim to build a theoretical understanding of stealing language models by studying a simple and mathematically tractable setting. We study model stealing for Hidden Markov Models (HMMs), and more generally low-rank language models. We assume that the learner works in the conditional query model, introduced by Kakade, Krishnamurthy, Mahajan and Zhang. Our main result is an efficient algorithm in the conditional query model, for learning any low-rank distribution. In other words, our algorithm succeeds at stealing any language model whose output distribution is low-rank. This improves upon the previous result by Kakade, Krishnamurthy, Mahajan and Zhang, which also requires the unknown distribution to have high "fidelity", a property that holds only in restricted cases. There are two key insights behind our algorithm: First, we represent the conditional distributions at each timestep by constructing barycentric spanners among a collection of vectors of exponentially large dimension. Second, for sampling from our representation, we iteratively solve a sequence of convex optimization problems that involve projection in relative entropy to prevent compounding of errors over the length of the sequence. This is an interesting example where, at least theoretically, allowing a machine learning model to solve more complex problems at inference time can lead to drastic improvements in its performance.
- Abstract(参考訳): 学習者が慎重に選択されたクエリによって未知のモデルを復元しようとするモデルステルスは、プロプライエタリなモデルのセキュリティとトレーニングされたデータのプライバシを脅かすため、機械学習において重要な問題である。
近年、大きな言語モデル(LLM)を盗むことに特に関心が寄せられている。
本稿では,単純かつ数学的に計算可能な設定を学習することで,言語モデルを盗む理論的理解を構築することを目的とする。
隠れマルコフモデル(HMM)およびより一般的に低ランク言語モデルに対するモデルステルスについて検討する。
学習者は,Kakade,Krishnamurthy,Mahajan,Zhangによって導入された条件付きクエリモデルで動作すると仮定する。
我々の主な成果は、低ランク分布を学習するための条件付きクエリモデルにおける効率的なアルゴリズムである。
言い換えれば、我々のアルゴリズムは、出力分布が低い言語モデルを盗むことに成功している。
これはKakade、Krishnamurthy、Mahajan、Zhangによる以前の結果の改善であり、これはまた、未知の分布が、制限された場合にのみ保持される性質である高い「忠実性」を持つことを要求する。
アルゴリズムには2つの重要な洞察がある: まず、指数的に大きな次元のベクトルの集合の中で、偏心スパンナーを構成することにより、各時刻における条件分布を表現する。
第二に、表現からサンプリングするために、相対エントロピーの射影を含む凸最適化問題の列を反復的に解決し、列の長さに誤差が混ざりあうのを防ぐ。
これは、少なくとも理論的には、推論時に機械学習モデルがより複雑な問題を解くことができるという興味深い例である。
関連論文リスト
- Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - CodeArt: Better Code Models by Attention Regularization When Symbols Are
Lacking [12.458135956476639]
トランスフォーマーベースのコードモデルは、多くのソフトウェアエンジニアリングタスクにおいて素晴らしいパフォーマンスを持つ。
しかし、それらの効果は、シンボルが欠落しているか、情報がないときに低下する。
本稿では,シンボルが不足している場合の一般符号モデルの事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T05:13:22Z) - Oracle Inequalities for Model Selection in Offline Reinforcement
Learning [105.74139523696284]
本稿では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。
対数係数まで最小値の速度-最適不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。
そこで本研究では,優れたモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
論文 参考訳(メタデータ) (2022-11-03T17:32:34Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。
言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文 参考訳(メタデータ) (2022-01-08T00:47:50Z) - Outlier-Robust Learning of Ising Models Under Dobrushin's Condition [57.89518300699042]
本研究では, サンプルの一定割合が逆向きに破壊されるような外乱条件下で, ドブルシンの条件を満たすIsingモデルの学習問題について検討する。
我々の主な成果は、ほぼ最適誤差保証を伴うこの問題に対して、計算効率のよい最初の頑健な学習アルゴリズムを提供することである。
論文 参考訳(メタデータ) (2021-02-03T18:00:57Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Characterizing and Avoiding Problematic Global Optima of Variational
Autoencoders [28.36260646471421]
変分自動エンコーダ(VAEs)は、深部生成潜在変数モデルである。
最近の研究は、伝統的な訓練手法がデシダラタに反する解決策をもたらす傾向があることを示している。
どちらの問題も、VAEトレーニング目標のグローバルな最適度が望ましくない解決策とよく一致するという事実に起因していることを示す。
論文 参考訳(メタデータ) (2020-03-17T15:14:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。