論文の概要: Better Language Model Inversion by Compactly Representing Next-Token Distributions
- arxiv url: http://arxiv.org/abs/2506.17090v1
- Date: Fri, 20 Jun 2025 15:53:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.518507
- Title: Better Language Model Inversion by Compactly Representing Next-Token Distributions
- Title(参考訳): 音素分布をコンパクトに表現した言語モデルインバージョン
- Authors: Murtaza Nazir, Matthew Finlayson, John X. Morris, Xiang Ren, Swabha Swayamdipta,
- Abstract要約: 言語モデルの逆転は、言語モデルの出力のみを使用して隠れたプロンプトを復元しようとする。
そこで本研究では,次の確率からヒントを抽出することで,隠れプロンプトを復元する手法を提案する。
我々の手法は、隠されたプロンプトを復元する従来の最先端手法よりも大幅に向上する。
- 参考スコア(独自算出の注目度): 39.39621496471788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language model inversion seeks to recover hidden prompts using only language model outputs. This capability has implications for security and accountability in language model deployments, such as leaking private information from an API-protected language model's system message. We propose a new method -- prompt inversion from logprob sequences (PILS) -- that recovers hidden prompts by gleaning clues from the model's next-token probabilities over the course of multiple generation steps. Our method is enabled by a key insight: The vector-valued outputs of a language model occupy a low-dimensional subspace. This enables us to losslessly compress the full next-token probability distribution over multiple generation steps using a linear map, allowing more output information to be used for inversion. Our approach yields massive gains over previous state-of-the-art methods for recovering hidden prompts, achieving 2--3.5 times higher exact recovery rates across test sets, in one case increasing the recovery rate from 17% to 60%. Our method also exhibits surprisingly good generalization behavior; for instance, an inverter trained on 16 generations steps gets 5--27 points higher prompt recovery when we increase the number of steps to 32 at test time. Furthermore, we demonstrate strong performance of our method on the more challenging task of recovering hidden system messages. We also analyze the role of verbatim repetition in prompt recovery and propose a new method for cross-family model transfer for logit-based inverters. Our findings show that next-token probabilities are a considerably more vulnerable attack surface for inversion attacks than previously known.
- Abstract(参考訳): 言語モデルの逆転は、言語モデルの出力のみを使用して隠れたプロンプトを復元しようとする。
この機能は、API保護された言語モデルのシステムメッセージからプライベート情報を漏洩するなど、言語モデルのデプロイメントにおけるセキュリティと説明責任に影響を及ぼす。
本稿では,複数の生成ステップを経たモデルが持つ次の確率からヒントを抽出することで,隠されたプロンプトを復元する新しい手法であるlogprob sequences (PILS) のインバージョンを提案する。
言語モデルのベクトル値出力は低次元部分空間を占有する。
これにより、線形写像を用いて、複数の生成ステップにまたがる全次トーケン確率分布を損失なく圧縮することができ、インバージョンにより多くの出力情報を使用することができる。
提案手法は, 従来の隠れプロンプト回収法に比べて2~3.5倍の精度で回収率を達成し, 回収率を17%から60%に引き上げる手法である。また, 16世代で訓練したインバータは, テスト時にステップ数を32に増やすと5~27ポイント上昇するなど, 驚くほど良好な一般化挙動を示す。
さらに,隠れたシステムメッセージを復元するより困難な課題に対して,本手法の強い性能を示す。
また,ロジット型インバータを用いたクロスファミリーモデル転送手法を提案する。
以上の結果から,次の確率は従来よりもはるかに脆弱な攻撃面であることが示唆された。
関連論文リスト
- Understanding the Repeat Curse in Large Language Models from a Feature Perspective [10.413608338398785]
大規模言語モデル(LLM)は、しばしば反復的なテキスト生成に悩まされる。
本稿では,Repeat Curse を誘導・解析するための新しい手法 "Duplicatus Charm" を提案する。
論文 参考訳(メタデータ) (2025-04-19T07:53:37Z) - Detecting, Explaining, and Mitigating Memorization in Diffusion Models [49.438362005962375]
そこで本研究では,テキスト条件予測の大きさを検査することで,暗黙のプロンプトを検出する方法を提案する。
提案手法はサンプリングアルゴリズムを中断することなくシームレスに統合し,第1世代でも高い精度を実現する。
検出戦略に基づいて,個々の単語やトークンの記憶への寄与を示す説明可能なアプローチを提示する。
論文 参考訳(メタデータ) (2024-07-31T16:13:29Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Language Model Inversion [77.22715643068284]
我々は,次の確率が先行するテキストに関する驚くべき量の情報を含んでいることを示す。
我々の反転法は、BLEUが59ドル、トークンレベルのF1が78ドルでプロンプトを再構築し、正確に27%のプロンプトを回収する。
論文 参考訳(メタデータ) (2023-11-22T19:04:04Z) - Ethicist: Targeted Training Data Extraction Through Loss Smoothed Soft
Prompting and Calibrated Confidence Estimation [56.57532238195446]
本研究では,対象とするトレーニングデータ抽出のためのEthicistという手法を提案する。
メモリ化を誘発するため、モデルを固定しながらソフトなプロンプト埋め込みをチューニングする。
我々は,最近提案された公開ベンチマークにおいて,エティシストが抽出性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-07-10T08:03:41Z) - Sentence Embedding Leaks More Information than You Expect: Generative
Embedding Inversion Attack to Recover the Whole Sentence [37.63047048491312]
本稿では,文の埋め込みのみに基づいて入力シーケンスを再構築することを目的とした,ジェネレーティブな埋め込み反転攻撃(GEIA)を提案する。
言語モデルへのブラックボックスアクセスを考えると、文の埋め込みを初期トークンの表現として扱い、列を直接デコードするために強力なデコーダモデルを訓練または微調整する。
論文 参考訳(メタデータ) (2023-05-04T17:31:41Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。